論文の概要: Verifiable Accuracy and Abstention Rewards in Curriculum RL to Alleviate Lost-in-Conversation
- arxiv url: http://arxiv.org/abs/2510.18731v1
- Date: Tue, 21 Oct 2025 15:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.829838
- Title: Verifiable Accuracy and Abstention Rewards in Curriculum RL to Alleviate Lost-in-Conversation
- Title(参考訳): 会話の損失を軽減するためのカリキュラムRLの検証精度と回避率
- Authors: Ming Li,
- Abstract要約: 大規模言語モデルはシングルターン命令に強い能力を示すが、LiC(Lost-in-Conversation)に苦しむ
Reinforcement Learning with Verifiable Rewards (RLVR) の現在の進歩に触発されて, 検証精度と回避Rewards (RLAAR) を用いたカリキュラム強化学習を提案する。
本手法では,信頼性を向上しつつ,対話の難易度を漸進的に向上させ,トレーニングの安定化を図る。
- 参考スコア(独自算出の注目度): 6.444818462799464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models demonstrate strong capabilities in single-turn instruction following but suffer from Lost-in-Conversation (LiC), a degradation in performance as information is revealed progressively in multi-turn settings. Motivated by the current progress on Reinforcement Learning with Verifiable Rewards (RLVR), we propose Curriculum Reinforcement Learning with Verifiable Accuracy and Abstention Rewards (RLAAR), a framework that encourages models not only to generate correct answers, but also to judge the solvability of questions in the multi-turn conversation setting. Our approach employs a competence-gated curriculum that incrementally increases dialogue difficulty (in terms of instruction shards), stabilizing training while promoting reliability. Using multi-turn, on-policy rollouts and a mixed-reward system, RLAAR teaches models to balance problem-solving with informed abstention, reducing premature answering behaviors that cause LiC. Evaluated on LiC benchmarks, RLAAR significantly mitigates LiC performance decay (62.6% to 75.1%) and improves calibrated abstention rates (33.5% to 73.4%). Together, these results provide a practical recipe for building multi-turn reliable and trustworthy LLMs.
- Abstract(参考訳): 大規模言語モデルは、シングルターン命令の後に強い能力を示すが、LiC(Lost-in-Conversation)に苦しむ。
RLVR(Reinforcement Learning with Verifiable Rewards)の現在進行中の強化学習(Reinforcement Learning with Verifiable Accuracy and Abstention Rewards, RLAAR)は,モデルが正しい回答を生成するだけでなく,マルチターン会話環境における質問の解決可能性も判断するフレームワークである。
提案手法では,対話の難易度を漸進的に向上し(指導シャードの観点から),信頼性を高めながらトレーニングの安定化を図る。
RLAARはマルチターン、オン・ポリシー・ロールアウト、ミックス・リワードシステムを使用して、問題解決と情報排除のバランスをとるようモデルに教え、LiCの原因となる早期の回答行動を減らす。
LiCベンチマークで評価すると、RLAARはLiCのパフォーマンス低下(62.6%から75.1%)を著しく軽減し、調整された吸収率(33.5%から73.4%)を改善する。
これらの結果は,多ターン信頼性および信頼性の高いLCMを構築するための実践的なレシピを提供する。
関連論文リスト
- Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.2144357080404]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - SPELL: Self-Play Reinforcement Learning for evolving Long-Context Language Models [79.01078135582127]
SPELLは、長文推論のためのスケーラブルでラベルなしの最適化を可能にする。
本稿では、文書長を徐々に向上させる自動カリキュラムと、モデルの進化する機能に質問の難しさを適応させる報奨関数を導入する。
論文 参考訳(メタデータ) (2025-09-28T13:08:10Z) - SI-FACT: Mitigating Knowledge Conflict via Self-Improving Faithfulness-Aware Contrastive Tuning [0.0]
大規模言語モデルは、知識の衝突により、知識集約的なタスクにおいて不誠実な応答を生成することが多い。
このフレームワークは自己指示機構を使用して、ベースLLMが高品質なコントラスト学習データを自動生成することを可能にする。
知識衝突評価ベンチマークのECARE KREとCOSE KREの実験では、Llama3 8Bに基づくSI FACTモデルでは、最高のベースライン法よりもコンテキストリコール率を6.2%改善している。
論文 参考訳(メタデータ) (2025-09-12T12:56:14Z) - Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR [110.90317717368264]
RLVRトレーニングのためのオンライン変分問題合成(SvS)戦略を提案する。
この戦略は、トレーニング中のポリシーのエントロピーを効果的に維持し、標準のRLVRと比較してPass@kを大幅に改善する。
論文 参考訳(メタデータ) (2025-08-19T17:42:45Z) - Post-Training Large Language Models via Reinforcement Learning from Self-Feedback [3.73824942136665]
大規模言語モデル(LLM)は、しばしば可算だが校正が不十分な回答を生成する。
本稿では,自己フィードバックによる強化学習(RLSF)について紹介する。
論文 参考訳(メタデータ) (2025-07-29T15:46:26Z) - SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。
本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。
SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文 参考訳(メタデータ) (2025-06-10T17:02:00Z) - Contextual Candor: Enhancing LLM Trustworthiness Through Hierarchical Unanswerability Detection [0.0]
本稿では,大規模言語モデル(LLM)のための新しいハイブリッド学習パラダイムであるReinforced Unanswerability Learning (RUL)を紹介する。
RULは、多段階学習戦略によって導かれるLLMの生成コアに、識別不能な予測ヘッドを統合する。
実験は、RULの優れた性能を示し、文、段落、ランキングレベルにわたる解答不能検出において、はるかに高い精度を達成する。
論文 参考訳(メタデータ) (2025-06-01T17:59:27Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。
予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。
9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文 参考訳(メタデータ) (2025-02-16T07:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。