論文の概要: SmartSwitch: Advancing LLM Reasoning by Overcoming Underthinking via Promoting Deeper Thought Exploration
- arxiv url: http://arxiv.org/abs/2510.19767v1
- Date: Wed, 22 Oct 2025 16:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.156048
- Title: SmartSwitch: Advancing LLM Reasoning by Overcoming Underthinking via Promoting Deeper Thought Exploration
- Title(参考訳): SmartSwitch: より深い思考の探索を促進することによって、LLM推論を克服する
- Authors: Xichen Zhang, Sitong Wu, Haoru Tan, Shaozuo Yu, Yinghao Zhu, Ziyi He, Jiaya Jia,
- Abstract要約: ロングチェーン・オブ・シークレット(LongCoT)は、複雑な推論タスクにおいて、大規模言語モデルによって達成された最近のブレークスルーの中心である。
本稿では,SmartSwitch推論フレームワークという,シンプルで効果的な推論手法を提案する。
このフレームワークは、プラグイン・アンド・プレイソリューションとして、どんな大きな言語モデルにも簡単に統合できる。
- 参考スコア(独自算出の注目度): 49.290631188365786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The long chain-of-thought (LongCoT) capability is central to the recent breakthroughs achieved by large language models in complex reasoning tasks. However, the accompanying issue of ''underthinking'', where models exhibit shallow reasoning by frequently switching thoughts without sufficient exploration, limits both performance and token efficiency. To address this problem, we propose a simple yet effective reasoning strategy: the SmartSwitch inference framework. This framework can be easily integrated into any large language model as a plug-and-play solution, continuously monitoring the model's reasoning process to detect underthinking and guide it toward deeper exploration of promising but overlooked thoughts. Specifically, the perception module identifies points where thoughts switch and evaluates the potential of the preceding thought using an off-the-shelf process reward model (PRM). If a high-potential thought is found to be prematurely abandoned, the intervention module interrupts the ongoing inference, backtracks to the point before the switch, and inserts a "deepening prompt" to encourage further exploration along that promising path. Extensive experiments on challenging mathematical reasoning benchmarks demonstrate that our method significantly enhances the performance of various large language models of different sizes.
- Abstract(参考訳): ロングチェーン・オブ・ソート(LongCoT)機能は、複雑な推論タスクにおいて、大規模言語モデルによって達成された最近のブレークスルーの中心である。
しかし、十分な探索をせずに頻繁に考えを切り替えることによって、モデルが浅い推論を示す「誤解」という課題は、性能とトークン効率の両方を制限している。
この問題に対処するために,SmartSwitch推論フレームワークという,シンプルながら効果的な推論戦略を提案する。
このフレームワークは、プラグイン・アンド・プレイのソリューションとして、どんな大きな言語モデルにも簡単に統合することができ、モデルの推論プロセスを継続的に監視し、過小評価を検出し、期待できないが見過ごされた考えのより深い探索へと導くことができます。
具体的には、知覚モジュールは、既往の思考がスイッチする点を特定し、既往のプロセス報酬モデル(PRM)を用いて、前回の思考のポテンシャルを評価する。
高能率思考が早期に放棄された場合、介入モジュールは進行中の推論を中断し、スイッチ前のポイントにバックトラックを挿入し、期待する経路に沿ってさらなる探索を促進するために「深みのあるプロンプト」を挿入する。
問題となる数理推論ベンチマークの大規模な実験により,提案手法は様々な大規模言語モデルの性能を著しく向上させることが示された。
関連論文リスト
- Explore Briefly, Then Decide: Mitigating LLM Overthinking via Cumulative Entropy Regulation [82.62935304152239]
大規模言語モデル(LLM)は、長いチェーン・オブ・ソート(CoT)推論を用いた複雑な問題に対する顕著な推論能力を示した。
しばしば過度の思考に悩まされ、単純な問題に対して必要以上に長い推論ステップが生じる。
本稿では, 推論過程を通じて探索範囲を計測する新しい計量量であるToken Entropy Cumulative Average(TECA)を紹介する。
論文 参考訳(メタデータ) (2025-10-02T17:36:50Z) - Latent Thinking Optimization: Your Latent Reasoning Language Model Secretly Encodes Reward Signals in Its Latent Thoughts [16.941385792353493]
大規模言語モデル(LLM)は、自然言語における思考の連鎖を生成することで問題解決において優れている。
最近の研究は、中間推論ステップを潜在表現のシーケンスとして表現する潜在思考アーキテクチャであるHuginn-3.5Bを提案する。
We show how how how Huginn-3.5B think in the latent space and how external supervision signal could improve the latent thinking process。
論文 参考訳(メタデータ) (2025-09-30T14:26:36Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。