論文の概要: RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward
- arxiv url: http://arxiv.org/abs/2505.10218v1
- Date: Thu, 15 May 2025 12:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.307884
- Title: RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward
- Title(参考訳): RAIDEN-R1: GRPOによるLLMの役割認識の改善
- Authors: Zongsheng Wang, Kaili Sun, Bowen Wu, Qun Yu, Ying Li, Baoxun Wang,
- Abstract要約: RAIDEN-R1は、VRAR(Verifiable Role-Awareness Reward)を統合した新しい強化学習フレームワークである
マルチLLMコラボレーションにより,高品質で役割対応のChain-of-Thoughtデータセットを構築した。
RAIDENベンチマークの実験では、RAIDEN-R1の優位性が示されている。
- 参考スコア(独自算出の注目度): 7.9399136525335585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Role-playing conversational agents (RPCAs) face persistent challenges in maintaining role consistency. To address this, we propose RAIDEN-R1, a novel reinforcement learning framework that integrates Verifiable Role-Awareness Reward (VRAR). The method introduces both singular and multi-term mining strategies to generate quantifiable rewards by assessing role-specific keys. Additionally, we construct a high-quality, role-aware Chain-of-Thought dataset through multi-LLM collaboration, and implement experiments to enhance reasoning coherence. Experiments on the RAIDEN benchmark demonstrate RAIDEN-R1's superiority: our 14B-GRPO model achieves 88.04% and 88.65% accuracy on Script-Based Knowledge and Conversation Memory metrics, respectively, outperforming baseline models while maintaining robustness. Case analyses further reveal the model's enhanced ability to resolve conflicting contextual cues and sustain first-person narrative consistency. This work bridges the non-quantifiability gap in RPCA training and provides insights into role-aware reasoning patterns, advancing the development of RPCAs.
- Abstract(参考訳): ロールプレイング会話エージェント(RPCAs)は、ロール一貫性を維持する上で、永続的な課題に直面します。
そこで本研究では,VRAR(Verifiable Role-Awareness Reward)を統合した新しい強化学習フレームワークであるRAIDEN-R1を提案する。
本手法では,役割特化キーを評価することにより,定量的な報酬を生成するための特異なマイニング戦略と複数長期のマイニング戦略を導入する。
さらに,マルチLLMコラボレーションによる高品質で役割対応のChain-of-Thoughtデータセットを構築し,推論コヒーレンスを向上させる実験を実施している。
RAIDENベンチマークの実験では、RAIDEN-R1の優位性が示されている。我々の14B-GRPOモデルは、スクリプトベースの知識と会話メモリのメトリクスにおいて、それぞれ88.04%と88.65%の精度を達成し、堅牢性を維持しながらベースラインモデルを上回っている。
事例分析により、矛盾する文脈的手がかりを解決し、一対一の物語的一貫性を維持するモデルの強化能力をさらに明らかにする。
この作業は、RPCAトレーニングにおける不確実性ギャップを埋め、ロールアウェアな推論パターンに関する洞察を提供し、RPCAの開発を推進します。
関連論文リスト
- RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning [22.825527641316192]
本稿では,直感的で効果的で汎用的なQA解法であるARRを紹介する。
質問の意図を分析し、関連する情報を検索し、ステップごとに推論する。
ARRにおいて重要な役割を果たすQAに意図分析を導入するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-02-07T06:30:33Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [82.9413277326097]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムによって複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z) - Enhancing Role-playing Systems through Aggressive Queries: Evaluation and Improvement [17.5855800570993]
大言語モデル(LLM)は、特にロールプレイングシステム(RPS)分野において、対話生成を新しい領域に推進している。
既存のLLMベースのRSSは、境界シナリオで複雑なクエリと閉じ込められたクエリを扱う場合、役割と整合するのに依然として苦労している。
本研究は,MORTISE (Modular Orchestrated Trap-setting Interaction SystEm) を設計し,ロールプレイングLLMの性能向上を図る。
論文 参考訳(メタデータ) (2024-02-16T12:12:05Z) - Self-supervised Representation Learning with Relative Predictive Coding [102.93854542031396]
Relative Predictive Coding(RPC)は、新しいコントラスト表現学習目標である。
RPCは、トレーニング安定性、ミニバッチサイズ感度、ダウンストリームタスクパフォーマンスのバランスが良好である。
ベンチマークビジョンと音声自己教師型学習タスクにおけるRPCの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2021-03-21T01:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。