論文の概要: Generative Adversarial Reasoner: Enhancing LLM Reasoning with Adversarial Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.16917v1
- Date: Thu, 18 Dec 2025 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.256252
- Title: Generative Adversarial Reasoner: Enhancing LLM Reasoning with Adversarial Reinforcement Learning
- Title(参考訳): 生成的逆数推論: 逆数強化学習によるLLM推論の強化
- Authors: Qihao Liu, Luoxin Ye, Wufei Ma, Yu-Cheng Chou, Alan Yuille,
- Abstract要約: 大きな言語モデル(LLM)と明確な推論能力は、数学的推論では優れているが、プロセスエラーをコミットする。
本稿では,理論の強化を目的としたオンライン共同学習フレームワークGeneversarative Adrial Reasonerを紹介する。
計算効率の高いレビュースケジュールは、各推論チェーンを、同等の長さの論理的に完全なスライスに分割し、判別器は、構造化された正当化により、各スライスの音質を評価する。
- 参考スコア(独自算出の注目度): 19.473649388687484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) with explicit reasoning capabilities excel at mathematical reasoning yet still commit process errors, such as incorrect calculations, brittle logic, and superficially plausible but invalid steps. In this paper, we introduce Generative Adversarial Reasoner, an on-policy joint training framework designed to enhance reasoning by co-evolving an LLM reasoner and an LLM-based discriminator through adversarial reinforcement learning. A compute-efficient review schedule partitions each reasoning chain into logically complete slices of comparable length, and the discriminator evaluates each slice's soundness with concise, structured justifications. Learning couples complementary signals: the LLM reasoner is rewarded for logically consistent steps that yield correct answers, while the discriminator earns rewards for correctly detecting errors or distinguishing traces in the reasoning process. This produces dense, well-calibrated, on-policy step-level rewards that supplement sparse exact-match signals, improving credit assignment, increasing sample efficiency, and enhancing overall reasoning quality of LLMs. Across various mathematical benchmarks, the method delivers consistent gains over strong baselines with standard RL post-training. Specifically, on AIME24, we improve DeepSeek-R1-Distill-Qwen-7B from 54.0 to 61.3 (+7.3) and DeepSeek-R1-Distill-Llama-8B from 43.7 to 53.7 (+10.0). The modular discriminator also enables flexible reward shaping for objectives such as teacher distillation, preference alignment, and mathematical proof-based reasoning.
- Abstract(参考訳): 数学的推論において明確な推論能力を持つ大規模言語モデル(LLM)は、不正確な計算、脆い論理、表面上は妥当だが無効なステップなどのプロセスエラーをコミットする。
本稿では,LLM推論器とLPMに基づく識別器を共進化させることにより推論を強化することを目的とした,対向強化学習によるオンライン共同学習フレームワークであるGenerative Adversarial Reasonerを紹介する。
計算効率の高いレビュースケジュールは、各推論チェーンを論理的に完備な長さのスライスに分割し、判別器は、各スライスの音質を簡潔で構造化された正当化で評価する。
LLM推論器は正しい答えを得る論理的に一貫したステップで報酬を受け取り、識別器は正しい誤りを検知したり、推論過程の痕跡を識別する報酬を得る。
これにより、細かな正確なマッチング信号の補足、クレジット割り当ての改善、サンプル効率の向上、LLMの全体的な推論品質の向上といった、密集した、十分に校正された、政治上の段階的な報酬が生み出される。
様々な数学的なベンチマークで、この手法は標準のRLポストトレーニングと強いベースラインに対して一貫した利得を与える。
具体的には、AIME24では、DeepSeek-R1-Distill-Qwen-7Bを54.0から61.3(+7.3)に、DeepSeek-R1-Distill-Llama-8Bを43.7から53.7(+10.0)に改善する。
モジュラー判別器は、教師の蒸留、選好アライメント、数学的証明に基づく推論などの目的に対して柔軟な報酬形成を可能にする。
関連論文リスト
- In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models [31.962209251193272]
CoT(Chain-of- Thought)は、大規模言語モデル(LLM)の能力を普遍的に改善することが期待される。
テスト時間計算のスケーリングに対する推論をインセンティブ化することで,複雑な命令を扱う上でのLLMを向上する体系的手法であるRAIFを提案する。
より優れたCoT施行のためのサンプルワイドコントラストによる複雑な指示の下での推論の浅く、重要でない性質に対処する。
論文 参考訳(メタデータ) (2025-06-02T08:11:44Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。