論文の概要: Lessons from Training Grounded LLMs with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2506.15522v1
- Date: Wed, 18 Jun 2025 14:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.702809
- Title: Lessons from Training Grounded LLMs with Verifiable Rewards
- Title(参考訳): 練習用接地LLMからの教訓の検証
- Authors: Shang Hong Sim, Tej Deep Pala, Vernon Toh, Hai Leong Chieu, Amir Zadeh, Chuan Li, Navonil Majumder, Soujanya Poria,
- Abstract要約: 強化学習と内部推論は、大きな言語モデルにおける基盤を強化することができる。
推論強化モデルは命令のみの変種よりも有意に優れていることを示す。
2段階のトレーニングセットアップで、まずは回答と引用の動作を最適化し、次に拒否し、グラウンド化をさらに改善する。
- 参考スコア(独自算出の注目度): 24.35637263339965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating grounded and trustworthy responses remains a key challenge for large language models (LLMs). While retrieval-augmented generation (RAG) with citation-based grounding holds promise, instruction-tuned models frequently fail even in straightforward scenarios: missing explicitly stated answers, citing incorrectly, or refusing when evidence is available. In this work, we explore how reinforcement learning (RL) and internal reasoning can enhance grounding in LLMs. We use the GRPO (Group Relative Policy Optimization) method to train models using verifiable outcome-based rewards targeting answer correctness, citation sufficiency, and refusal quality, without requiring gold reasoning traces or expensive annotations. Through comprehensive experiments across ASQA, QAMPARI, ELI5, and ExpertQA we show that reasoning-augmented models significantly outperform instruction-only variants, especially in handling unanswerable queries and generating well-cited responses. A two-stage training setup, first optimizing answer and citation behavior and then refusal, further improves grounding by stabilizing the learning signal. Additionally, we revisit instruction tuning via GPT-4 distillation and find that combining it with GRPO enhances performance on long-form, generative QA tasks. Overall, our findings highlight the value of reasoning, stage-wise optimization, and outcome-driven RL for building more verifiable and reliable LLMs.
- Abstract(参考訳): 基礎と信頼性のある応答を生成することは、大きな言語モデル(LLM)にとって依然として重要な課題である。
引用に基づく基底を持つ検索強化生成(RAG)は約束を守れるが、命令調整されたモデルは単純なシナリオでもしばしば失敗する。
本研究では,LLMにおける強化学習(RL)と内部理化(内部理化)が接地をいかに促進するかを考察する。
我々はGRPO(Group Relative Policy Optimization)法を用いて、金の推理トレースや高価なアノテーションを必要とせず、回答の正当性、引用の正当性、拒否品質を目標とした検証結果に基づく報酬を用いてモデルを訓練する。
ASQA、QAMPARI、ELI5、ExpertQAの総合的な実験を通して、推論強化モデルは命令のみの変種、特に解決不可能なクエリの処理や、よく暗黙の応答の生成において、著しく優れていることを示す。
2段階の訓練装置は、まず、回答と引用動作を最適化し、次に拒絶し、学習信号の安定化によりグラウンド化をさらに改善する。
さらに, GPT-4蒸留による指導チューニングを見直し, GRPOと組み合わせることで, 長大なQAタスクの性能向上が期待できる。
全体としては、より信頼性が高く信頼性の高いLCMを構築する上で、推論、ステージワイド最適化、結果駆動型RLの価値を強調した。
関連論文リスト
- Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Post-training an LLM for RAG? Train on Self-Generated Demonstrations [19.972220654354494]
大規模言語モデル(LLM)は知識集約型NLPタスクとしばしば競合する。
検索拡張生成(RAG)は、モデルがコンテキスト内情報を利用することを可能にする。
自己生成型実演を用いたRAG対応LDMの学習法を提案する。
論文 参考訳(メタデータ) (2025-02-14T23:00:49Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。
我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。
我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文 参考訳(メタデータ) (2023-11-16T03:22:25Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。