論文の概要: Geometric Latent Reasoning Induces Shorter Generations in LLMs
- arxiv url: http://arxiv.org/abs/2606.02248v1
- Date: Mon, 01 Jun 2026 13:40:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.178288
- Title: Geometric Latent Reasoning Induces Shorter Generations in LLMs
- Title(参考訳): 幾何学的潜在推論はLLMの短い生成を誘導する
- Authors: Shashi Kumar, Yacouba Kaloga, Petr Motlicek, Ina Kodrasi, Andrea Cavallaro,
- Abstract要約: 我々は,事前訓練されたトークン埋め込み空間内の幾何学的経路近似問題として潜在推論を定式化する。
本稿では、軽量な遷移ヘッドを用いて埋め込み空間における反復方向更新を予測するGeometric Latent Reasoning (GLR)を紹介する。
Qwen3モデルを用いた数学的推論ベンチマークの評価では、創発的な現象が明らかである。
- 参考スコア(独自算出の注目度): 24.29594681334716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models solve complex problems by generating lengthy chains of explicit reasoning tokens. While effective, this makes reasoning expensive, length-sensitive, and constrained to (discrete) natural language. While latent reasoning offers a continuous alternative, determining useful structures for intermediate latent states is an open challenge. In this paper, we formulate latent reasoning as a geometric path-approximation problem within the model's pretrained token-embedding space. We introduce Geometric Latent Reasoning (GLR), which uses a lightweight transition head to predict iterative direction updates in embedding space. Using textual chain-of-thought traces as anchors, GLR learns to approximate discrete reasoning trajectories while permitting continuous deviations from exact token embeddings. Evaluations on mathematical reasoning benchmarks using Qwen3 models reveal an emergent phenomenon: geometric latent reasoning induces substantially shorter generations without an explicit length objective. By replacing early explicit reasoning with continuous latent steps, models often reach correct answers using substantially fewer total generation steps. These findings suggest that continuous trajectories act as compact intermediate reasoning states, exposing a new tradeoff between latent computation budget, output length, and accuracy.
- Abstract(参考訳): 大規模言語モデルは、明示的な推論トークンの長い連鎖を生成することで複雑な問題を解決する。
効果はあるが、これは推論が高価で、長さに敏感で、自然言語に制約される(不明瞭)。
潜時推論は連続的な代替手段を提供するが、中間潜時状態の有用な構造を決定することはオープンな課題である。
本稿では,事前学習されたトークン埋め込み空間内の幾何学的経路近似問題として潜在推論を定式化する。
本稿では、軽量な遷移ヘッドを用いて埋め込み空間における反復方向更新を予測するGeometric Latent Reasoning (GLR)を紹介する。
テキスト・チェーン・オブ・シント・トレースをアンカーとして、GLRは正確なトークン埋め込みから連続的な逸脱を許容しながら、離散的推論軌道を近似することを学ぶ。
Qwen3モデルを用いた数学的推論ベンチマークの評価では、創発的な現象が明らかである。
初期の明示的な推論を連続的な潜伏ステップに置き換えることで、モデルは総生成ステップをかなり少なくして正しい解を得ることができる。
これらの結果から, 連続軌道はコンパクトな中間推論状態として機能し, 潜在計算予算, 出力長, 精度の新たなトレードオフを明らかにすることが示唆された。
関連論文リスト
- On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。
本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。
FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文 参考訳(メタデータ) (2026-03-05T06:08:50Z) - CoLT: Reasoning with Chain of Latent Tool Calls [31.228763375347608]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)の推論能力を高める重要な手法である。
ツールコールとして潜伏推論を実装する新しいフレームワークである「CoLT」を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:12:53Z) - ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought [49.203970812338916]
明示的な推論連鎖は、かなりの計算冗長性をもたらす。
近年の潜時推論法は、推理過程を潜時空間に圧縮することによりこれを緩和しようとする。
我々はRendered CoT-Guided Variational Latent Reasoning (ReGuLaR)を提案する。
論文 参考訳(メタデータ) (2026-01-30T17:08:06Z) - Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization [9.193078163792427]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)に複雑な問題に取り組む権限を与える。
最近の潜伏推論手法は、連続した隠蔽状態内で推論を行うことによって効率を最適化しようとする。
PLaTは、潜在推論を言語化から根本的に切り離すことによって計画として再構成するフレームワークである。
論文 参考訳(メタデータ) (2026-01-29T07:38:18Z) - Are Language Models Efficient Reasoners? A Perspective from Logic Programming [109.47572890883248]
現代言語モデル(LM)は、強い推論能力を示すが、標準的な評価は、人間のような推論の重要な側面である効率性を見越しながら、正確性を強調する。
本稿では、論理プログラミングのレンズを用いて、LM推論効率を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T15:30:31Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - Training Large Language Models to Reason in a Continuous Latent Space [71.0274000348354]
我々は、言語を超えた推論の可能性を探るため、Coconut (Chain of Continuous Thought)と呼ばれる新しいパラダイムを導入します。
この状態を単語に復号するのではなく、連続した空間に直接埋め込む次の入力としてモデルにフィードバックします。
この潜在的推論パラダイムは、継続的思考が複数の代替の次のステップをエンコードできる高度な推論パターンを可能にする。
論文 参考訳(メタデータ) (2024-12-09T18:55:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。