論文の概要: RLVR Training of LLMs Does Not Improve Thinking Ability for General QA: Evaluation Method and a Simple Solution
- arxiv url: http://arxiv.org/abs/2603.20799v1
- Date: Sat, 21 Mar 2026 12:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.088845
- Title: RLVR Training of LLMs Does Not Improve Thinking Ability for General QA: Evaluation Method and a Simple Solution
- Title(参考訳): LLMのRLVRトレーニングは、一般的なQAの思考能力を改善しない:評価法と簡単な解法
- Authors: Kaiyuan Li, Jing-Cheng Pang, Yang Yu,
- Abstract要約: 検証可能な報酬(RLVR)からの強化学習は、大規模言語モデル(LLM)の思考過程を刺激する
同様の利得は一般的な質問応答(GQA)に移行するべきであるとしばしば仮定される。
GQAタスクに対する思考プロセスの有効性は,検証可能なタスクよりも著しく低いことを示す。
- 参考スコア(独自算出の注目度): 8.881188446968137
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning from verifiable rewards (RLVR) stimulates the thinking processes of large language models (LLMs), substantially enhancing their reasoning abilities on verifiable tasks. It is often assumed that similar gains should transfer to general question answering (GQA), but this assumption has not been thoroughly validated. To assess whether RLVR automatically improves LLM performance on GQA, we propose a Cross-Generation evaluation framework that measures the quality of intermediate reasoning by feeding the generated thinking context into LLMs of varying capabilities. Our evaluation leads to a discouraging finding: the efficacy of the thinking process on GQA tasks is markedly lower than on verifiable tasks, suggesting that explicit training on GQA remains necessary in addition to training on verifiable tasks. We further observe that direct RL training on GQA is less effective than RLVR. Our hypothesis is that, whereas verifiable tasks demand robust logical chains to obtain high rewards, GQA tasks often admit shortcuts to high rewards without cultivating high-quality thinking. To avoid possible shortcuts, we introduce a simple method, Separated Thinking And Response Training (START), which first trains only the thinking process, using rewards defined on the final answer. We show that START improves both the quality of thinking and the final answer across several GQA benchmarks and RL algorithms.
- Abstract(参考訳): 検証可能な報酬(RLVR)からの強化学習は、大きな言語モデル(LLM)の思考プロセスを刺激し、検証可能なタスクに対する推論能力を大幅に向上させる。
同様の利得は一般質問応答(GQA)に移行するべきであると仮定されることが多いが、この仮定は十分に検証されていない。
GQA 上で RLVR が LLM の性能を自動改善するかどうかを評価するために,生成した思考コンテキストを様々な能力の LLM に供給することにより,中間的推論の質を計測するクロスジェネレーション評価フレームワークを提案する。
GQAタスクに対する思考プロセスの有効性は、検証可能なタスクよりも著しく低いため、検証可能なタスクに対するトレーニングに加えて、GQA上での明示的なトレーニングが必要であることが示唆された。
また、GQAの直接RLトレーニングはRLVRよりも効果が低いことも観察した。
我々の仮説では、検証可能なタスクは高い報酬を得るために堅牢な論理的連鎖を要求するが、GQAタスクは高品質な思考を育むことなく、高い報酬に対するショートカットを認めることが多い。
提案手法は,まず思考過程のみを学習し,最終回答に定義した報酬を用いて学習する。
また,STARTは,複数のGQAベンチマークとRLアルゴリズムにおいて,思考の質と最終回答の両方を改善していることを示す。
関連論文リスト
- From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Auditable-choice reframing unlocks RL-based verification for open-ended tasks [23.12421867559344]
Verible Multiple-Choice Reformulation (VMR)は、オープンエンドデータを検証可能な複数選択形式に再構成する新しいトレーニング戦略である。
8つのオープンエンドベンチマークで、VMRベースのトレーニングはベースラインで平均5.99ポイント向上します。
論文 参考訳(メタデータ) (2025-11-04T10:45:52Z) - KnowCoder-A1: Incentivizing Agentic Reasoning Capability with Outcome Supervision for KBQA [55.26634094204971]
知識ベース質問回答 (KBQA) は、構造化知識ベース (KB) に関する自然言語質問に答えることを目的としている。
近年の作業は,大規模言語モデル(LLM)が質問を反復的に分解し,対応する論理的クエリを生成し,KBと対話して答えを導出する,エージェント推論パラダイムを採用することでKBQAを改善している。
そこで我々は,KBのエージェント推論を自律的に行うLLMであるKnowCoder-A1を提案する。
論文 参考訳(メタデータ) (2025-10-29T02:12:18Z) - Beyond Correctness: Rewarding Faithful Reasoning in Retrieval-Augmented Generation [21.72639961371058]
本稿では,RLに基づく検索エージェントを評価するための総合的な評価フレームワークを提案する。
忠実な推論を促進するために,よりきめ細かな忠実さ報酬を強化学習プロセスに統合する新しい枠組みであるVERITASを紹介する。
論文 参考訳(メタデータ) (2025-10-15T08:17:52Z) - CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment [44.33395106709674]
RLVR(Reinforcement Learning with Verifiable Rewards)は、ルールベースのバイナリフィードバックを使用することで、LLM(Large Language Models)の推論能力を改善した。
現在のRLVRメソッドは、通常、すべてのトークンに同じ報酬を割り当てる。
この粗い粒度のフィードバックは、正確なクレジット割り当てを妨げ、モデルがどの推論ステップが成功または失敗につながるかを特定するのが難しくなる。
論文 参考訳(メタデータ) (2025-08-04T11:06:08Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。