論文の概要: Escaping the Verifier: Learning to Reason via Demonstrations
- arxiv url: http://arxiv.org/abs/2511.21667v1
- Date: Wed, 26 Nov 2025 18:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.25195
- Title: Escaping the Verifier: Learning to Reason via Demonstrations
- Title(参考訳): 検証者から逃れる:デモを通して推論を学ぶ
- Authors: Locke Cai, Ivan Provilkov,
- Abstract要約: RAROは、逆強化学習(Inverse Reinforcement Learning)を通じて、専門家によるデモンストレーションのみから、強力な推論能力を学ぶ。
本手法は,政策(ジェネレータ)と相対論的批判(差別者)の対立的相互作用を設定する。
- 参考スコア(独自算出の注目度): 0.4679031868857941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training Large Language Models (LLMs) to reason often relies on Reinforcement Learning (RL) with task-specific verifiers. However, many real-world reasoning-intensive tasks lack verifiers, despite offering abundant expert demonstrations that remain under-utilized for reasoning-focused training. We introduce RARO (Relativistic Adversarial Reasoning Optimization) that learns strong reasoning capabilities from only expert demonstrations via Inverse Reinforcement Learning. Our method sets up an adversarial interaction between a policy (generator) and a relativistic critic (discriminator): the policy learns to mimic expert answers, while the critic learns to compare and distinguish between policy and expert answers. Our method trains both the policy and the critic jointly and continuously via RL, and we identify the key stabilization techniques required for robust learning. Empirically, RARO significantly outperforms strong verifier-free baselines on all of our evaluation tasks -- Countdown, DeepMath, and Poetry Writing -- and enjoys the same robust scaling trends as RL on verifiable tasks. These results demonstrate that our method effectively elicits strong reasoning performance from expert demonstrations alone, enabling robust reasoning learning even when task-specific verifiers are unavailable.
- Abstract(参考訳): 大規模言語モデル(LLM)の訓練は、しばしばタスク固有の検証を伴う強化学習(RL)に依存している。
しかし、現実の推論集約的なタスクの多くは検証器を欠いているが、推論中心のトレーニングに未使用のままの、豊富な専門家によるデモンストレーションを提供している。
Inverse Reinforcement Learning(逆強化学習)を通じて、専門家によるデモンストレーションのみから強力な推論能力を学ぶRARO(Relativistic Adversarial Reasoning Optimization)を導入する。
本手法は,政策 (ジェネレータ) と相対論的批判 (差別者) の対立的相互作用を定め, 政策は専門家の回答を模倣することを学ぶ一方で, 批判者は政策と専門家の回答を比較・区別することを学ぶ。
提案手法は,RLを用いてポリシーと批評家の双方を共同かつ継続的に訓練し,ロバスト学習に必要な重要な安定化手法を同定する。
経験的に言えば、RAROは我々の評価タスク(Countdown、DeepMath、Poetry Writing)で強力な検証不要なベースラインを著しく上回り、検証可能なタスクではRLと同じ堅牢なスケーリングトレンドを享受しています。
これらの結果から,本手法は専門家による実証実験のみでの強い推論性能を効果的に発揮し,タスク固有の検証が不可能な場合にも頑健な推論学習を可能にすることが示唆された。
関連論文リスト
- Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - Learning Deliberately, Acting Intuitively: Unlocking Test-Time Reasoning in Multimodal LLMs [7.501387372794562]
Deliberate-to-Intuitive reasoning framework (D2I)はマルチモーダル言語モデルの理解と推論能力を改善する。
本手法は,学習中の規則に基づく形式報酬のみを通じて,モダリティアライメントを高めるための意図的な推論戦略を定めている。
評価中、推論スタイルは直感に移行し、トレーニング中の意図的な推論戦略を取り除き、モデルが獲得した応答能力を暗黙的に反映する。
論文 参考訳(メタデータ) (2025-07-09T16:25:44Z) - Safety Through Reasoning: An Empirical Study of Reasoning Guardrail Models [3.102576158218633]
推論に基づく言語モデルは、様々な領域で強いパフォーマンスを示している。
近年の研究では、推論は安全性とガードレールの応用にも大きなメリットをもたらすことが示されている。
本研究はデータ効率と推論効率の2つの重要な側面に焦点を当てている。
論文 参考訳(メタデータ) (2025-05-26T15:01:37Z) - Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2025-05-20T17:59:16Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Safety Reasoning with Guidelines [63.15719512614899]
RT(Refusal Training)は、様々なアウト・オブ・ディストリビューション(OOD)のジェイルブレイク攻撃に対する一般化に苦慮している。
本稿では,クエリ毎に安全推論を行うためのトレーニングモデルを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:01:44Z) - Learning from Ambiguous Demonstrations with Self-Explanation Guided
Reinforcement Learning [20.263419567168388]
本研究の目的は、強化学習(RL)エージェントの訓練にあいまいなデモンストレーションを効果的に活用することである。
このような状況を人間がどう扱うかに触発されて、我々は価値ある高レベルな関係性の特徴を認識するために自己説明を使うことを提案する。
我々の主な貢献は、従来のRLfD作品の限界を克服できるDemonstrations (SERLfD)フレームワークからの自己説明(Self-Explanation for RL)を提案することである。
論文 参考訳(メタデータ) (2021-10-11T13:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。