論文の概要: Demystifying Hybrid Thinking: Can LLMs Truly Switch Between Think and No-Think?
- arxiv url: http://arxiv.org/abs/2510.12680v1
- Date: Tue, 14 Oct 2025 16:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.388646
- Title: Demystifying Hybrid Thinking: Can LLMs Truly Switch Between Think and No-Think?
- Title(参考訳): ハイブリッド思考のデミスティフィケーション:LLMはシンクとノンシンクを真に切り替えられるか?
- Authors: Shouren Wang, Wang Yang, Xianxuan Long, Qifan Wang, Vipin Chaudhary, Xiaotian Han,
- Abstract要約: 制御可能性に影響を与える要因を分析し,最も重要な4つの要因を同定する。
本稿では,標準学習と比較して,両方のモードで精度を維持できる実践的なレシピを提案する。
- 参考スコア(独自算出の注目度): 46.403110838087194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid thinking enables LLMs to switch between reasoning and direct answering, offering a balance between efficiency and reasoning capability. Yet our experiments reveal that current hybrid thinking LLMs only achieve partial mode separation: reasoning behaviors often leak into the no-think mode. To understand and mitigate this, we analyze the factors influencing controllability and identify four that matter most: (1) larger data scale, (2) using think and no-think answers from different questions rather than the same question, (3) a moderate increase in no-think data number, and (4) a two-phase strategy that first trains reasoning ability and then applies hybrid think training. Building on these findings, we propose a practical recipe that, compared to standard training, can maintain accuracy in both modes while significantly reducing no-think output length (from $1085$ to $585$ on MATH500) and occurrences of reasoning-supportive tokens such as ``\texttt{wait}'' (from $5917$ to $522$ on MATH500). Our findings highlight the limitations of current hybrid thinking and offer directions for strengthening its controllability.
- Abstract(参考訳): ハイブリッド思考により、LLMは推論と直接応答を切り替え、効率と推論能力のバランスをとることができる。
しかし、我々の実験により、現在のハイブリッド思考 LLM は部分的なモード分離しか達成していないことが判明した。
この理解と緩和のために,制御可能性に影響を与える要因を分析し,(1)大きなデータ尺度,(2)同じ質問ではなく異なる質問からの思考と無思考の回答を用いたこと,(3)無思考のデータ数の適度な増加,(4)最初に推論能力を訓練し,その後にハイブリッドシンクトレーニングを適用する2段階戦略,の4つを重要視した。
これらの知見に基づいて, 標準トレーニングと比較して, 両モードの精度を維持しつつ, 概念のない出力長(MATH500は1085ドルから585ドル) と '`\texttt{wait}' (MATH500は5917ドルから522ドル) のような推論支援トークンの発生を著しく低減できる実用的レシピを提案する。
本研究は,現在のハイブリッド思考の限界を浮き彫りにし,コントロール可能性を高めるための方向性を提示する。
関連論文リスト
- Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning [57.57084309580296]
Thinking-Based Non-Thinkingは、さまざまなクエリに対する思考を使用しない応答に対して、異なる最大トークン使用量を設定する。
5つの数学ベンチマークの実験により、TNTはトークンの使用量を約50%削減することを示した。
TNTの応答における報酬ハッキングの確率は、思考を使用しないものとして分類されているが、依然として10%以下である。
論文 参考訳(メタデータ) (2026-01-08T10:38:41Z) - SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning [48.43989881030515]
本稿では,大規模言語モデル(MLLM)の推論能力を高めるための強化学習フレームワークを提案する。
SAIL-RLは、事実的根拠、論理的一貫性、回答整合性を通じて推論品質を評価するThinking Rewardと、深い推論と直接回答が適切かどうかを適応的に決定するJudging Rewardである。
論文 参考訳(メタデータ) (2025-11-04T05:34:06Z) - Gold-Switch: Training-Free Superposition of Slow- and Fast- Thinking LLMs [36.84838904299283]
大規模推論モデル(LRM)は、意図的な人間の推論をエミュレートすることで、構造化されたタスクに優れるが、しばしば過度な考えに悩まされる。
本稿では,1つのモデルのオン/オフによるスイッチング推論を最適化するために,軽量でトレーニング不要な規制を施したデプロイ戦略を提案する。
論文 参考訳(メタデータ) (2025-10-08T08:17:57Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。
我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。
Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文 参考訳(メタデータ) (2025-05-19T17:24:16Z) - Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning [12.830215971176806]
ロングチェーン・オブ・思想(CoT)は、大規模言語モデル(LLM)の推論効率を改善するための新たな戦略である。
本研究では,異なる思考の有効性と効率を測定するための理論的に有界な尺度を提案する。
次に,2つのLong$otimes$Shortを提案する。
論文 参考訳(メタデータ) (2025-05-17T04:26:39Z) - Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL [36.40577746211243]
大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。
この過度に考える問題に対処するため、適応的思考能力を備えたLEMの装備方法について検討する。
推論ポリシーを段階的に最適化する多段階強化学習フレームワークであるAutoThinkを提案する。
論文 参考訳(メタデータ) (2025-05-16T04:01:57Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。