論文の概要: Learning to Ponder: Adaptive Reasoning in Latent Space
- arxiv url: http://arxiv.org/abs/2509.24238v1
- Date: Mon, 29 Sep 2025 03:21:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.721381
- Title: Learning to Ponder: Adaptive Reasoning in Latent Space
- Title(参考訳): Ponderへの学習: 潜在空間における適応型推論
- Authors: Yixin He, Lumingyuan Tang,
- Abstract要約: 我々は、潜時ステアリングによるインスタンス適応推論計算を割り当てる単一グラフのバックボーン学習自由フレームワークFR-Ponderを提案する。
GSM8KとMATH500では、FR-Ponderは計算精度のフロンティアを改善し、一致した精度で低いFLOPを提供し、早期出力ベースラインと比較する。
- 参考スコア(独自算出の注目度): 2.8835557003761747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time compute has emerged as a key paradigm for enhancing LLM reasoning, yet prevailing approaches like Best-of-N and majority voting apply uniform depth across inputs, wasting computation on simple queries while potentially under-thinking complex ones. We present FR-Ponder, a single-graph, backbone-training-free framework that allocates instance-adaptive reasoning compute via latent steering. A less than 1M-param controller observes hidden states and decides to halt or apply a small ponder step by adding a pre-computed steering vector to frozen representations. Our method extracts the latent steering vector associated with deeper reasoning outputs and direct IO from LLM and re-applies it through a tunable scaling factor, allowing the model to adapt its reasoning depth to the complexity of each input. To balance performance and computational cost, we employ Group Relative Policy Optimization (GRPO) as a reward signal to adaptively regulate reasoning depth, achieving task accuracy while mitigating overreasoning. Through curriculum learning and careful reward engineering, FR-Ponder learns calibrated compute allocation correlated with problem difficulty. On GSM8K and MATH500, FR-Ponder improves the compute-accuracy frontier, delivering lower FLOPs with better matched accuracy and comparing favorably to early-exit baselines, without modifying backbone weights. Analyses visualize interpretable steering directions and show learned compute allocation correlates with problem difficulty.
- Abstract(参考訳): テストタイム計算は、LLM推論を強化する重要なパラダイムとして現れてきたが、Best-of-Nや多数決のような一般的なアプローチでは、入力に一様深さを適用し、単純なクエリ上で計算を無駄にし、複雑な処理を過小評価する可能性がある。
本稿では、潜在ステアリングによるインスタンス適応推論計算を割り当てる、シングルグラフのバックボーン学習自由フレームワークFR-Ponderを提案する。
1Mパラメータ未満のコントローラは、隠された状態を観測し、凍結表現に予め計算された操舵ベクトルを付加することにより、小さな操舵ステップを停止または適用することを決定する。
提案手法は, LLM から深部推論出力に付随する潜時ステアリングベクトルを抽出し, チューナブルスケーリング係数を用いて直接 IO を適用することにより, モデルが各入力の複雑さにその推論深度を適応できるようにする。
性能と計算コストのバランスをとるため,我々はグループ相対政策最適化(GRPO)を報酬信号として用い,推論深度を適応的に制御し,過剰推論を緩和しながらタスク精度を達成した。
FR-Ponderは、カリキュラム学習と注意深い報酬工学を通じて、問題の難易度と相関した計算割り当ての校正を学習する。
GSM8KとMATH500では、FR-Ponderは計算精度のフロンティアを改善し、低いFLOPをより整合性良く提供し、バックボーンの重みを変更することなく早期のベースラインと比較する。
解析は解釈可能な操舵方向を可視化し、学習された計算割り当てを示す。
関連論文リスト
- Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following [10.119219532863767]
思考段階の怠慢な推論は 指示の順守に 寄与する主要な要因だ
本稿では,プレビューと自己チェックを含む厳密な推論プロセスを実現するための包括的フレームワークを提案する。
私たちのLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルと、Doubao-1.6のようなクローズドソースモデルの両方を上回っています。
論文 参考訳(メタデータ) (2025-08-05T07:42:00Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Adaptive operator learning for infinite-dimensional Bayesian inverse problems [7.716833952167609]
本研究では,局所的に精度の高いサロゲートを強制することによって,モデリングエラーを段階的に低減できる適応型演算子学習フレームワークを開発した。
UKIフレームワークを用いて線形の場合において厳密な収束を保証する。
その結果,逆精度を維持しながら計算コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2023-10-27T01:50:33Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。