論文の概要: Inference-Time Rethinking with Latent Thought Vectors for Math Reasoning
- arxiv url: http://arxiv.org/abs/2602.06584v1
- Date: Fri, 06 Feb 2026 10:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.354126
- Title: Inference-Time Rethinking with Latent Thought Vectors for Math Reasoning
- Title(参考訳): 数学推論のための潜在思考ベクトルを用いた推論時間再考
- Authors: Deqian Kong, Minglu Zhao, Aoyang Qin, Bo Pang, Chenxin Tao, David Hartmann, Edouardo Honig, Dehong Xu, Amit Kumar, Matt Sarte, Chuan Li, Jianwen Xie, Ying Nian Wu,
- Abstract要約: 推論時間再考(Inference-Time Rethinking)は、反復的な自己補正を可能にする生成フレームワークである。
我々は、推論を連続的な潜在思考ベクトル(何を推論すべきか)と、このベクトル上で条件付けられたトレースを言語化する復号器に分解する。
- 参考スコア(独自算出の注目度): 44.0190939401003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard chain-of-thought reasoning generates a solution in a single forward pass, committing irrevocably to each token and lacking a mechanism to recover from early errors. We introduce Inference-Time Rethinking, a generative framework that enables iterative self-correction by decoupling declarative latent thought vectors from procedural generation. We factorize reasoning into a continuous latent thought vector (what to reason about) and a decoder that verbalizes the trace conditioned on this vector (how to reason). Beyond serving as a declarative buffer, latent thought vectors compress the reasoning structure into a continuous representation that abstracts away surface-level token variability, making gradient-based optimization over reasoning strategies well-posed. Our prior model maps unstructured noise to a learned manifold of valid reasoning patterns, and at test time we employ a Gibbs-style procedure that alternates between generating a candidate trace and optimizing the latent vector to better explain that trace, effectively navigating the latent manifold to refine the reasoning strategy. Training a 0.2B-parameter model from scratch on GSM8K, our method with 30 rethinking iterations surpasses baselines with 10 to 15 times more parameters, including a 3B counterpart. This result demonstrates that effective mathematical reasoning can emerge from sophisticated inference-time computation rather than solely from massive parameter counts.
- Abstract(参考訳): 標準的なチェーン・オブ・ソート推論は、1つのフォワードパスでソリューションを生成し、トークン毎に無効にコミットし、早期エラーから回復するメカニズムが欠如している。
Inference-Time Rethinkingは、宣言的潜在思考ベクトルを手続き生成から切り離して反復的自己補正を可能にする生成フレームワークである。
我々は、推論を連続的な潜在思考ベクトル(何を推論すべきか)と、このベクトル上で条件付けられたトレースを(どのように推論するか)言語化するデコーダに分解する。
宣言的なバッファとして機能するだけでなく、潜在思考ベクトルは推論構造を連続的な表現に圧縮し、表面レベルのトークンの可変性を抽象化し、推論戦略に対する勾配に基づく最適化をうまく提示する。
我々の先行モデルは、非構造ノイズを有効な推論パターンの学習多様体にマッピングし、テスト時には、候補トレースの生成と潜在ベクトルの最適化を交互に交互に行うギブススタイルの手順を用いて、そのトレースをよりよく説明し、潜在多様体を効果的にナビゲートして推論戦略を洗練させる。
GSM8Kでスクラッチから0.2Bパラメータモデルをトレーニングし、30回繰り返し再考した手法は、3Bのパラメータを含む10~15倍のパラメータでベースラインを超えた。
この結果は、膨大なパラメータ数からではなく、高度な推論時間計算から効果的な数学的推論が生まれることを証明している。
関連論文リスト
- ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought [49.203970812338916]
明示的な推論連鎖は、かなりの計算冗長性をもたらす。
近年の潜時推論法は、推理過程を潜時空間に圧縮することによりこれを緩和しようとする。
我々はRendered CoT-Guided Variational Latent Reasoning (ReGuLaR)を提案する。
論文 参考訳(メタデータ) (2026-01-30T17:08:06Z) - Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization [9.193078163792427]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)に複雑な問題に取り組む権限を与える。
最近の潜伏推論手法は、連続した隠蔽状態内で推論を行うことによって効率を最適化しようとする。
PLaTは、潜在推論を言語化から根本的に切り離すことによって計画として再構成するフレームワークである。
論文 参考訳(メタデータ) (2026-01-29T07:38:18Z) - ENTRA: Entropy-Based Redundancy Avoidance in Large Language Model Reasoning [30.786062954495403]
大規模な推論モデル(LRM)は、単純なタスクであっても必要以上に長い推論チェーンを生成するため、過度に考え直されることが多い。
本稿では,性能を保ちながら冗長な推論を抑制するエントロピーベースのトレーニングフレームワークであるENTRAを提案する。
論文 参考訳(メタデータ) (2026-01-12T01:26:30Z) - Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。