論文の概要: Fast Thinking for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.23633v1
- Date: Sun, 28 Sep 2025 04:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.340763
- Title: Fast Thinking for Large Language Models
- Title(参考訳): 大規模言語モデルのための高速思考
- Authors: Haoyu Zheng, Zhuonan Wang, Yuqian Yuan, Tianwei Lin, Wenqiao Zhang, Zheqi Lv, Juncheng Li, Siliang Tang, Yueting Zhuang, Hongyang He,
- Abstract要約: 我々は、訓練中にのみ簡潔なCoTスケッチを使用して個別戦略事前のコードブックを学習するフレームワークであるLatent Codebooks for Fast Thinkingを紹介した。
推論では、コードブックから抽出した少数の連続的思考スイッチのモデル条件を1パスにすることで、明確な推論トークンを生成することなく、戦略レベルのガイダンスを可能にする。
- 参考スコア(独自算出の注目度): 67.7238685892317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning-oriented Large Language Models (LLMs) often rely on generating explicit tokens step by step, and their effectiveness typically hinges on large-scale supervised fine-tuning or reinforcement learning. While Chain-of-Thought (CoT) techniques substantially enhance performance on complex reasoning tasks, they remain inefficient, requiring long reasoning traces that increase latency and token usage. In this work, we introduce Latent Codebooks for Fast Thinking, a framework that uses concise CoT sketches only during training to learn a codebook of discrete strategy priors. At inference, the model conditions on a handful of continuous thinking vectors distilled from the codebook in a single pass, enabling strategy-level guidance without producing explicit reasoning tokens. To complement this design, we propose GainRouter, a lightweight routing mechanism that adaptively switches between fast codebook guided inference and slow explicit reasoning, thereby suppressing overthinking and reducing unnecessary token generation. Experiments across multiple reasoning benchmarks show that our approach achieves competitive or superior accuracy while substantially lowering inference cost, offering a practical path toward efficient and controllable reasoning in large language models.
- Abstract(参考訳): 推論指向の大規模言語モデル(LLM)は、しばしばステップごとに明示的なトークンを生成することに依存し、その効果は通常、大規模に監督された微調整や強化学習に依存する。
CoT(Chain-of-Thought)技術は複雑な推論タスクのパフォーマンスを大幅に向上させるが、それらは非効率であり、レイテンシとトークン使用量を増加させる長い推論トレースを必要とする。
本研究では,訓練中にのみ簡潔なCoTスケッチを使用して,個別戦略事前のコードブックを学習するフレームワークであるLatent Codebooks for Fast Thinkingを紹介する。
推論では、コードブックから1回のパスで抽出した少数の連続的思考ベクトルのモデル条件により、明確な推論トークンを生成することなく、戦略レベルのガイダンスを可能にする。
この設計を補完するために、高速なコードブックガイド推論と遅い明示的推論を適応的に切り替える軽量ルーティング機構であるGainRouterを提案する。
複数の推論ベンチマークを用いて実験した結果,提案手法は推論コストを大幅に低減しつつ,競合的あるいは優れた精度を実現し,大規模言語モデルにおける効率的かつ制御可能な推論への実践的な道筋を提供する。
関連論文リスト
- R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Adaptive Deep Reasoning: Triggering Deep Thinking When Needed [28.575411507835973]
大規模言語モデル(LLM)は、ロングチェーン推論による複雑なタスクの処理において、優れた機能を示している。
本稿では,問題複雑性に基づいて,短鎖と長鎖の推論チェーンを自律的に切り替える手法を提案する。
この進歩は、現実世界の応用のための大規模言語モデルにおける推論の実践性を高める。
論文 参考訳(メタデータ) (2025-05-26T15:08:51Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Efficient Reasoning with Hidden Thinking [48.96945580741641]
CoT(Chain-of-Thought)推論は、複雑な問題解決能力を改善するための強力なフレームワークになっています。
我々は,隠された潜在空間におけるCoTの推論を利用した効率的な推論フレームワークであるtextbfHeima$(隠されたラマとして)を提案する。
ハイマモデルは、ゼロショットタスクの精度を維持しつつ、より高い生成効率を達成する。
論文 参考訳(メタデータ) (2025-01-31T15:10:29Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。