論文の概要: In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback
- arxiv url: http://arxiv.org/abs/2511.09865v1
- Date: Fri, 14 Nov 2025 01:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.534719
- Title: In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback
- Title(参考訳): In-Token Rationality Optimization:Self-Feedbackによる高精度かつ簡潔なLLM推論を目指して
- Authors: Mingye Zhu, Yi Liu, Zheren Fu, Quan Wang, Yongdong Zhang,
- Abstract要約: InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
- 参考スコア(独自算出の注目度): 38.915062716409686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training Large Language Models (LLMs) for chain-of-thought reasoning presents a significant challenge: supervised fine-tuning on a single "golden" rationale hurts generalization as it penalizes equally valid alternatives, whereas reinforcement learning with verifiable rewards struggles with credit assignment and prohibitive computational cost. To tackle these limitations, we introduce InTRO (In-Token Rationality Optimization), a new framework that enables both token-level exploration and self-feedback for accurate and concise reasoning. Instead of directly optimizing an intractable objective over all valid reasoning paths, InTRO leverages correction factors-token-wise importance weights estimated by the information discrepancy between the generative policy and its answer-conditioned counterpart, for informative next token selection. This approach allows the model to perform token-level exploration and receive self-generated feedback within a single forward pass, ultimately encouraging accurate and concise rationales. Across six math-reasoning benchmarks, InTRO consistently outperforms other baselines, raising solution accuracy by up to 20% relative to the base model. Its chains of thought are also notably more concise, exhibiting reduced verbosity. Beyond this, InTRO enables cross-domain transfer, successfully adapting to out-of-domain reasoning tasks that extend beyond the realm of mathematics, demonstrating robust generalization.
- Abstract(参考訳): 大きな言語モデル(LLMs)をチェーン・オブ・シークレットの推論のために訓練することは、重要な課題である: 1つの「黄金」論理を教師する微調整は、同等に有効な選択肢を罰するのに対して、検証可能な報酬を伴う強化学習は、クレジットの割り当てと禁止的な計算コストに苦しむのに対して、一般化を損なう。
これらの制限に対処するために,トークンレベルの探索と自己フィードバックの両方が可能な新しいフレームワークであるInTRO(In-Token Rationality Optimization)を導入する。
すべての有効な推論経路に対して難解な目的を直接最適化する代わりに、InTROは、情報的次のトークン選択のために、生成ポリシーと応答条件の相違によって見積もられる補正因子-token-wise importance weightsを活用する。
このアプローチにより、モデルはトークンレベルの探索を実行し、単一のフォワードパス内で自己生成されたフィードバックを受け取り、最終的には正確で簡潔な合理性を促進することができる。
6つの数学推論ベンチマークで、InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思想の連鎖は特に簡潔であり、冗長性が低下している。
さらに、InTROはクロスドメイン転送を可能にし、数学の領域を超えて広がる領域外推論タスクにうまく適応し、堅牢な一般化を実証する。
関連論文リスト
- LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - Promoting Efficient Reasoning with Verifiable Stepwise Reward [7.385337642642193]
大規模推論モデル(LRM)は近年、強化学習によって支援された複雑な推論タスクにおいて大きな進歩を遂げている。
LRMは、単純な問題に対する過度な計算を過度に行い、効率を低下させることにしばしば悩まされる。
本稿では,中間状態の推論軌道における性能に基づいて報酬を割り当てる,ルールベースで検証可能なステップワイド報酬機構(VSRM)を提案する。
論文 参考訳(メタデータ) (2025-08-14T02:43:53Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Verbosity-Aware Rationale Reduction: Effective Reduction of Redundant Rationale via Principled Criteria [18.612187958340407]
大規模言語モデル(LLM)は、最終回答の品質を高めるために、広範囲な中間推論単位(トークン、文など)を生成することに依存する。
トークンレベルの削減を明確な基準なしで適用する従来の手法は、完全に合理的に訓練されたモデルと比較して、性能が劣る。
本稿では,冗長な推論文を識別・除去するために,確率に基づく基準,冗長性を活用した文レベルの合理的化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-30T15:15:08Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。