論文の概要: The Path of Least Resistance: Guiding LLM Reasoning Trajectories with Prefix Consensus
- arxiv url: http://arxiv.org/abs/2601.21494v2
- Date: Tue, 03 Feb 2026 15:36:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.8103
- Title: The Path of Least Resistance: Guiding LLM Reasoning Trajectories with Prefix Consensus
- Title(参考訳): 胸部抵抗の経路:プレフィックス・コンセンサスを用いたLLM推論軌道の誘導
- Authors: Ishan Jindal, Sai Prashanth Akuthota, Jayant Taneja, Sachin Dev Sharma,
- Abstract要約: 計算効率の推論にプレフィックス整合性を利用する最初の推論時間法であるPoLRを導入する。
PoLRクラスタは、推論トレースの短いプレフィックスを、支配的なクラスタを特定し、そのクラスタ内のすべてのパスを拡張する。
実証的には、PoLRはGSM8K、MATH500、AIME24/25、GPQA-DIAMONDで一貫してSCを超える。
- 参考スコア(独自算出の注目度): 1.7798494187119376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models achieve strong reasoning performance, but inference strategies such as Self-Consistency (SC) are computationally expensive, as they fully expand all reasoning traces. We introduce PoLR (Path of Least Resistance), the first inference-time method to leverage prefix consistency for compute-efficient reasoning. PoLR clusters short prefixes of reasoning traces, identifies the dominant cluster, and expands all paths in that cluster, preserving the accuracy benefits of SC while substantially reducing token usage and latency. Our theoretical analysis, framed via mutual information and entropy, explains why early reasoning steps encode strong signals predictive of final correctness. Empirically, PoLR consistently matches or exceeds SC across GSM8K, MATH500, AIME24/25, and GPQA-DIAMOND, reducing token usage by up to 60% and wall-clock latency by up to 50%. Moreover, PoLR is fully complementary to adaptive inference methods (e.g., Adaptive Consistency, Early-Stopping SC) and can serve as a drop-in pre-filter, making SC substantially more efficient and scalable without requiring model fine-tuning.
- Abstract(参考訳): 大規模言語モデルは強い推論性能を達成するが、自己整合性(SC)のような推論戦略は、すべての推論トレースを完全に拡張するため、計算的に高価である。
本稿では,計算効率の高い推論のためのプレフィックス一貫性を利用する最初の推論時間法であるPoLR(Path of Least Resistance)を紹介する。
PoLRは、推論トレースの短いプレフィックスをクラスタ化し、支配的なクラスタを特定し、そのクラスタ内のすべてのパスを拡張して、トークンの使用とレイテンシを大幅に削減しながら、SCの精度上のメリットを保存する。
我々の理論的分析は、相互情報とエントロピーを通してフレーム化され、なぜ初期の推論ステップが最終的な正しさを予測できる強い信号を符号化するのかを説明している。
実証的には、PoLRはGSM8K、MATH500、AIME24/25、GPQA-DIAMONDでSCを一貫して上回り、トークン使用率を最大60%、ウォールクロックレイテンシを最大50%削減する。
さらに、PoLRは適応推論手法(Adaptive Consistency、Early-Stopping SCなど)を完全に補完し、プリフィルタとして機能し、モデル微調整を必要とせずにSCを大幅に効率よくスケーラブルにする。
関連論文リスト
- ENTRA: Entropy-Based Redundancy Avoidance in Large Language Model Reasoning [30.786062954495403]
大規模な推論モデル(LRM)は、単純なタスクであっても必要以上に長い推論チェーンを生成するため、過度に考え直されることが多い。
本稿では,性能を保ちながら冗長な推論を抑制するエントロピーベースのトレーニングフレームワークであるENTRAを提案する。
論文 参考訳(メタデータ) (2026-01-12T01:26:30Z) - Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs [57.217593337454026]
TokenSqueezeは、パフォーマンスを保ち、自己生成データにのみ依存しながら推論パスを凝縮する新しいLong2Shortメソッドである。
TokenSqueeze は MATH500 ベンチマークの精度を維持しながらトークンの使用量を削減できることを示す。
論文 参考訳(メタデータ) (2025-11-17T10:38:56Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [39.61818305829112]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。
PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。
我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文 参考訳(メタデータ) (2025-05-25T15:17:57Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning [14.020244011380063]
SpecReasonは、LEM推論を加速するシステムである。
最終回答の正確性を維持する上で、思考トークンのセマンティックな柔軟性を利用する。
バニラLEM推論よりも1.4-3.0times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-04-10T16:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。