論文の概要: SyncThink: A Training-Free Strategy to Align Inference Termination with Reasoning Saturation
- arxiv url: http://arxiv.org/abs/2601.03649v1
- Date: Wed, 07 Jan 2026 07:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.360106
- Title: SyncThink: A Training-Free Strategy to Align Inference Termination with Reasoning Saturation
- Title(参考訳): SyncThink: 推論終了と推論飽和のトレーニング不要戦略
- Authors: Gengyang Li, Wang Cai, Yifeng Gao, Yunfang Wu,
- Abstract要約: 我々は、モデルの重みを変更することなく、Chain-of-Thoughtオーバーヘッドを低減する、トレーニングフリーでプラグイン・アンド・プレイのデコーディング手法SyncThinkを提案する。
答えトークンは、初期の推論に弱い従属し、代わりに情報ボトルネックを示す特別なトークン"/think"に注目します。
GSM8K、MMLU、GPQA、BBHを3つのDeepSeek-R1蒸留モデルで実験した結果、SyncThinkの平均Top-1精度は62.00%であることがわかった。
- 参考スコア(独自算出の注目度): 11.021989271617835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) prompting improves reasoning but often produces long and redundant traces that substantially increase inference cost. We present SyncThink, a training-free and plug-and-play decoding method that reduces CoT overhead without modifying model weights. We find that answer tokens attend weakly to early reasoning and instead focus on the special token "/think", indicating an information bottleneck. Building on this observation, SyncThink monitors the model's own reasoning-transition signal and terminates reasoning. Experiments on GSM8K, MMLU, GPQA, and BBH across three DeepSeek-R1 distilled models show that SyncThink achieves 62.00 percent average Top-1 accuracy using 656 generated tokens and 28.68 s latency, compared to 61.22 percent, 2141 tokens, and 92.01 s for full CoT decoding. On long-horizon tasks such as GPQA, SyncThink can further yield up to +8.1 absolute accuracy by preventing over-thinking.
- Abstract(参考訳): CoT(Chain-of-Thought)は推論を改善するが、しばしば推論コストを大幅に上昇させる長く冗長なトレースを生成する。
モデル重みを変更せずにCoTオーバーヘッドを低減する訓練不要かつプラグアンドプレイ復号法SyncThinkを提案する。
答えトークンは、初期の推論に弱い従属し、代わりに情報ボトルネックを示す特別なトークン"/think"に注目します。
この観測に基づいて、SyncThinkはモデル自身の推論遷移信号をモニターし、推論を終了する。
GSM8K、MMLU、GPQA、BBHを3つのDeepSeek-R1蒸留モデルで実験したところ、SyncThinkは656個の生成されたトークンと28.68秒のレイテンシで平均62.00パーセントのTop-1精度を達成した。
GPQAのような長距離タスクにおいて、SyncThinkは過度に考え過ぎないようにすることで、さらに+8.1の絶対精度を得ることができる。
関連論文リスト
- Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning [15.597220136913258]
LYNXはオンラインのアーリーエグジットメカニズムで、モデル自身の隠れ状態の認識を信頼性制御による停止決定に変換する。
一般的な数学的コーパスで一度このプローブをトレーニングして校正し、ベンチマーク、復号化温度、さらには非数学的なタスクで再利用します。
論文 参考訳(メタデータ) (2025-12-05T00:04:42Z) - Logit-Entropy Adaptive Stopping Heuristic for Efficient Chain-of-Thought Reasoning [0.0]
CoTプロンプト(Chain-of-Thought)は、大規模言語モデルにおいて複雑な推論を可能にする重要なテクニックである。
LEASH: Logit-Entropy Adaptive Stopping Heuristicは,有理数生成を適応的に停止する学習自由復号アルゴリズムである。
論文 参考訳(メタデータ) (2025-11-06T18:43:16Z) - DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - What makes Reasoning Models Different? Follow the Reasoning Leader for Efficient Decoding [84.42056293290015]
推論モデルと非推論モデルの間のトークンレベルのミスアライメントを分析する。
本稿では,FoReaL-Decodingを提案する。
一般的な4つの数学推論ベンチマークにおいて、FoReaL-Decodingは理論FLOPを30から50%減らし、CoTの長さを最大40%減らした。
論文 参考訳(メタデータ) (2025-06-08T05:08:32Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - Not All Tokens Are What You Need In Thinking [34.767739567093656]
条件付きトークン選択(CTS)は、思考の連鎖において最も重要なトークンのみを特定し保存する。
CTSは、強い推論性能を維持しながら、効果的に長いCoTを圧縮する。
さらにトレーニングトークンを42%削減すると、限界5%の精度低下しか生じず、推論トークンの75.8%が減少する。
論文 参考訳(メタデータ) (2025-05-23T12:41:29Z) - CoT-Valve: Length-Compressible Chain-of-Thought Tuning [50.196317781229496]
我々はCoT-Valveと呼ばれる新しいチューニングと推論戦略を導入し、モデルが様々な長さの推論連鎖を生成できるようにする。
我々は,CoT-Valveがチェーンの制御性と圧縮性を実現し,プロンプトベース制御よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-02-13T18:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。