論文の概要: Mid-Think: Training-Free Intermediate-Budget Reasoning via Token-Level Triggers
- arxiv url: http://arxiv.org/abs/2601.07036v1
- Date: Sun, 11 Jan 2026 19:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.127814
- Title: Mid-Think: Training-Free Intermediate-Budget Reasoning via Token-Level Triggers
- Title(参考訳): ミッドシンク:Token-Level Triggersによるトレーニング不要の中間予算推論
- Authors: Wang Yang, Debargha Ganguly, Xinpeng Li, Chaoda Song, Shouren Wang, Vikash Singh, Vipin Chaudhary, Xiaotian Han,
- Abstract要約: 先行するOKy'のトークンは推論動作を誘導し,/think>'に続く新しいパターンはそれを抑制していることを示す。
中間予算推論を実現するためにこれらのトリガを組み合わせたトレーニングフリープロンプトフォーマットであるMid-Thinkを提案する。
- 参考スコア(独自算出の注目度): 16.452437424233484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid reasoning language models are commonly controlled through high-level Think/No-think instructions to regulate reasoning behavior, yet we found that such mode switching is largely driven by a small set of trigger tokens rather than the instructions themselves. Through attention analysis and controlled prompting experiments, we show that a leading ``Okay'' token induces reasoning behavior, while the newline pattern following ``</think>'' suppresses it. Based on this observation, we propose Mid-Think, a simple training-free prompting format that combines these triggers to achieve intermediate-budget reasoning, consistently outperforming fixed-token and prompt-based baselines in terms of the accuracy-length trade-off. Furthermore, applying Mid-Think to RL training after SFT reduces training time by approximately 15% while improving final performance of Qwen3-8B on AIME from 69.8% to 72.4% and on GPQA from 58.5% to 61.1%, demonstrating its effectiveness for both inference-time control and RL-based reasoning training.
- Abstract(参考訳): ハイブリッド推論言語モデルは、推論動作を制御するための高レベルなThink/No-think命令によって一般的に制御されるが、そのようなモード切替は、命令自体ではなく、小さなトリガトークンセットによって主に駆動される。
注意分析と制御促進実験により,先行する ‘Okay'' トークンは推論動作を誘導し,新規な '`</think>'' パターンはそれを抑制することを示した。
そこで本研究では,これらのトリガを組み合わせた簡易なトレーニングフリープロンプトフォーマットであるMid-Thinkを提案する。
さらに、SFT後のRLトレーニングにミッドシンクを適用すると、AIMEでのQwen3-8Bの最終性能は69.8%から72.4%に改善し、GPQAは58.5%から61.1%に向上し、推論時間制御とRLベースの推論トレーニングの両方に効果を示す。
関連論文リスト
- Learning from Mistakes: Negative Reasoning Samples Enhance Out-of-Domain Generalization [37.59050823977757]
チェーン・オブ・シンクレット(CoT)軌道上でのSFT(Supervised Fine-tuning)は、大規模言語モデルにおける推論を可能にする一般的なアプローチである。
通常、標準的なプラクティスは、正しい最終回答(陽性)を持つ軌跡を保ちながら、残り(陰性)を無視するのみである。
我々は、このパラダイムが相当な監督を放棄し、オーバーフィッティングを悪化させ、ドメイン外一般化(OOD)を制限すると論じている。
適応型サンプル認識方式であるGain-based LOss Weighting (GLOW)を提案する。
論文 参考訳(メタデータ) (2026-01-08T14:49:10Z) - Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL [36.40577746211243]
大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。
この過度に考える問題に対処するため、適応的思考能力を備えたLEMの装備方法について検討する。
推論ポリシーを段階的に最適化する多段階強化学習フレームワークであるAutoThinkを提案する。
論文 参考訳(メタデータ) (2025-05-16T04:01:57Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。