論文の概要: RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward
- arxiv url: http://arxiv.org/abs/2505.10218v1
- Date: Thu, 15 May 2025 12:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.307884
- Title: RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward
- Title(参考訳): RAIDEN-R1: GRPOによるLLMの役割認識の改善
- Authors: Zongsheng Wang, Kaili Sun, Bowen Wu, Qun Yu, Ying Li, Baoxun Wang,
- Abstract要約: RAIDEN-R1は、VRAR(Verifiable Role-Awareness Reward)を統合した新しい強化学習フレームワークである
マルチLLMコラボレーションにより,高品質で役割対応のChain-of-Thoughtデータセットを構築した。
RAIDENベンチマークの実験では、RAIDEN-R1の優位性が示されている。
- 参考スコア(独自算出の注目度): 7.9399136525335585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Role-playing conversational agents (RPCAs) face persistent challenges in maintaining role consistency. To address this, we propose RAIDEN-R1, a novel reinforcement learning framework that integrates Verifiable Role-Awareness Reward (VRAR). The method introduces both singular and multi-term mining strategies to generate quantifiable rewards by assessing role-specific keys. Additionally, we construct a high-quality, role-aware Chain-of-Thought dataset through multi-LLM collaboration, and implement experiments to enhance reasoning coherence. Experiments on the RAIDEN benchmark demonstrate RAIDEN-R1's superiority: our 14B-GRPO model achieves 88.04% and 88.65% accuracy on Script-Based Knowledge and Conversation Memory metrics, respectively, outperforming baseline models while maintaining robustness. Case analyses further reveal the model's enhanced ability to resolve conflicting contextual cues and sustain first-person narrative consistency. This work bridges the non-quantifiability gap in RPCA training and provides insights into role-aware reasoning patterns, advancing the development of RPCAs.
- Abstract(参考訳): ロールプレイング会話エージェント(RPCAs)は、ロール一貫性を維持する上で、永続的な課題に直面します。
そこで本研究では,VRAR(Verifiable Role-Awareness Reward)を統合した新しい強化学習フレームワークであるRAIDEN-R1を提案する。
本手法では,役割特化キーを評価することにより,定量的な報酬を生成するための特異なマイニング戦略と複数長期のマイニング戦略を導入する。
さらに,マルチLLMコラボレーションによる高品質で役割対応のChain-of-Thoughtデータセットを構築し,推論コヒーレンスを向上させる実験を実施している。
RAIDENベンチマークの実験では、RAIDEN-R1の優位性が示されている。我々の14B-GRPOモデルは、スクリプトベースの知識と会話メモリのメトリクスにおいて、それぞれ88.04%と88.65%の精度を達成し、堅牢性を維持しながらベースラインモデルを上回っている。
事例分析により、矛盾する文脈的手がかりを解決し、一対一の物語的一貫性を維持するモデルの強化能力をさらに明らかにする。
この作業は、RPCAトレーニングにおける不確実性ギャップを埋め、ロールアウェアな推論パターンに関する洞察を提供し、RPCAの開発を推進します。
関連論文リスト
- Diversity-Enhanced Reasoning for Subjective Questions [6.898139210272096]
主観的推論タスクの精度と多様性を改善するために,複数の役割視点を持つ多様性向上フレームワークであるMultiRole-R1を提案する。
特別に設計された報酬関数により、視点の多様性と語彙の多様性を促進することに成功した。
6つのベンチマーク実験により,MultiRole-R1の有効性と主観的推論と客観的推論の両面での一般化性を示した。
論文 参考訳(メタデータ) (2025-07-27T09:07:42Z) - CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards [53.36917093757101]
ロールプレイング言語エージェント (RPLA) は,Large Language Models (LLM) に対する重要な適用方向として登場した。
テキスト認識対応推論パラダイムを採用した新しいRPLAであるtextbfCogDualを紹介する。
外部状況認識と内部自己認識を共同でモデル化することにより、CagDualは文字整合性と文脈整合性を改善した応答を生成する。
論文 参考訳(メタデータ) (2025-07-23T02:26:33Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - RAG-R1 : Incentivize the Search and Reasoning Capabilities of LLMs through Multi-query Parallelism [10.288667305064065]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
LLMは、静的な内部知識のために、幻覚または時代遅れの応答を生成する傾向にある。
Retrieval-Augmented Generation(RAG)法の最近の進歩は、モデルの探索と推論能力の向上を目的としている。
論文 参考訳(メタデータ) (2025-06-30T09:02:45Z) - KunLunBaizeRAG: Reinforcement Learning Driven Inference Performance Leap for Large Language Models [4.637288682081713]
KunLunBaizeRAGは、複雑なマルチホップ質問応答タスクにおける大規模言語モデル(LLM)の推論能力を高めるために設計された強化学習駆動推論フレームワークである。
主なイノベーションとしては、RAG駆動のReasoning Alignment(RDRA)メカニズム、検索-Think Iterative Enhancement(STIE)メカニズム、Network-Local Intelligent Routing(NLR)メカニズム、プログレッシブハイブリッドトレーニング戦略などがある。
論文 参考訳(メタデータ) (2025-06-24T09:48:01Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Improving LLM Reasoning through Interpretable Role-Playing Steering [23.75554062102392]
ロールプレイングは大規模言語モデル(LLM)の推論能力を高める効果的な手法として登場した。
Sparse Autoencoder Role-Playing Steering (SRPS) は、ロールプレイング行動に関連する内部モデルの特徴を特定し、操作する新しいフレームワークである。
提案手法は,ロールプレイプロンプトから潜在表現を抽出し,アクティベーションパターンに基づいて最も関連性の高い特徴を選択し,制御可能な強度でモデルの残留ストリームに注入可能なステアリングベクトルを構築する。
論文 参考訳(メタデータ) (2025-06-09T00:31:17Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning [22.825527641316192]
本稿では,直感的で効果的で汎用的なQA解法であるARRを紹介する。
質問の意図を分析し、関連する情報を検索し、ステップごとに推論する。
ARRにおいて重要な役割を果たすQAに意図分析を導入するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-02-07T06:30:33Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [82.9413277326097]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムによって複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z) - Enhancing Role-playing Systems through Aggressive Queries: Evaluation and Improvement [17.5855800570993]
大言語モデル(LLM)は、特にロールプレイングシステム(RPS)分野において、対話生成を新しい領域に推進している。
既存のLLMベースのRSSは、境界シナリオで複雑なクエリと閉じ込められたクエリを扱う場合、役割と整合するのに依然として苦労している。
本研究は,MORTISE (Modular Orchestrated Trap-setting Interaction SystEm) を設計し,ロールプレイングLLMの性能向上を図る。
論文 参考訳(メタデータ) (2024-02-16T12:12:05Z) - Self-supervised Representation Learning with Relative Predictive Coding [102.93854542031396]
Relative Predictive Coding(RPC)は、新しいコントラスト表現学習目標である。
RPCは、トレーニング安定性、ミニバッチサイズ感度、ダウンストリームタスクパフォーマンスのバランスが良好である。
ベンチマークビジョンと音声自己教師型学習タスクにおけるRPCの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2021-03-21T01:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。