論文の概要: The Zero-Step Thinking: An Empirical Study of Mode Selection as Harder Early Exit in Reasoning Models
- arxiv url: http://arxiv.org/abs/2510.19176v1
- Date: Wed, 22 Oct 2025 02:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.932999
- Title: The Zero-Step Thinking: An Empirical Study of Mode Selection as Harder Early Exit in Reasoning Models
- Title(参考訳): ゼロステップ思考:共振モデルにおける早期退行としてのモード選択の実証的研究
- Authors: Yuqiao Tan, Shizhu He, Kang Liu, Jun Zhao,
- Abstract要約: モード選択は、ThinkingモードまたはNoThinkingモードを利用することで、Long-CoT(Chain-of-Thought)とShort-CoTを自動で決定することを目的としている。
我々は,手作りの情報を最小限に抑えると,限られた分類能力のために,プロンプトベースのアプローチが失敗することが多いことを観察する。
その結果,モデルが提供する情報のみに依存する既存の手法では,モード選択を効果的に扱うには不十分であることが示唆された。
- 参考スコア(独自算出の注目度): 26.940600916534446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning models have demonstrated exceptional performance in tasks such as mathematics and logical reasoning, primarily due to their ability to engage in step-by-step thinking during the reasoning process. However, this often leads to overthinking, resulting in unnecessary computational overhead. To address this issue, Mode Selection aims to automatically decide between Long-CoT (Chain-of-Thought) or Short-CoT by utilizing either a Thinking or NoThinking mode. Simultaneously, Early Exit determines the optimal stopping point during the iterative reasoning process. Both methods seek to reduce the computational burden. In this paper, we first identify Mode Selection as a more challenging variant of the Early Exit problem, as they share similar objectives but differ in decision timing. While Early Exit focuses on determining the best stopping point for concise reasoning at inference time, Mode Selection must make this decision at the beginning of the reasoning process, relying on pre-defined fake thoughts without engaging in an explicit reasoning process, referred to as zero-step thinking. Through empirical studies on nine baselines, we observe that prompt-based approaches often fail due to their limited classification capabilities when provided with minimal hand-crafted information. In contrast, approaches that leverage internal information generally perform better across most scenarios but still exhibit issues with stability. Our findings indicate that existing methods relying solely on the information provided by models are insufficient for effectively addressing Mode Selection in scenarios with limited information, highlighting the ongoing challenges of this task. Our code is available at https://github.com/Trae1ounG/Zero_Step_Thinking.
- Abstract(参考訳): 推論モデルは、数学や論理的推論のようなタスクにおいて、主に推論過程においてステップバイステップの思考を行う能力のために、例外的なパフォーマンスを示してきた。
しかし、これはしばしば過度に考え直し、不要な計算オーバーヘッドをもたらす。
この問題に対処するため、モード選択は、ThinkingモードまたはNoThinkingモードを利用することで、Long-CoT(Chain-of-Thought)とShort-CoTを自動で決定することを目的としている。
同時に、Early Exitは反復推論過程における最適な停止点を決定する。
どちらの手法も計算負担を減らそうとしている。
本稿では、まずモード選択を、類似の目的を共有しながら決定タイミングが異なるため、より困難な早期排他問題の変種として認識する。
Early Exitは推論時に簡潔な推論の最良の停止点を決定することに重点を置いているが、モード選択は、ゼロステップ思考と呼ばれる明示的な推論プロセスに関わらず、事前に定義された偽の思考に依存して、推論プロセスの開始時にこの決定をしなければならない。
9つのベースラインに関する実証研究を通して、手作りの情報を最小限に抑えると、限られた分類能力のため、プロンプトベースのアプローチは失敗することが多いことを観察する。
対照的に、内部情報を活用するアプローチは、ほとんどのシナリオでよく機能するが、安定性に問題がある。
本研究は,モデルが提供する情報にのみ依存する既存の手法が,限られた情報を持つシナリオにおけるモード選択に効果的に対処するには不十分であることを示す。
私たちのコードはhttps://github.com/Trae1ounG/Zero_Step_Thinking.orgから入手可能です。
関連論文リスト
- Explore Briefly, Then Decide: Mitigating LLM Overthinking via Cumulative Entropy Regulation [82.62935304152239]
大規模言語モデル(LLM)は、長いチェーン・オブ・ソート(CoT)推論を用いた複雑な問題に対する顕著な推論能力を示した。
しばしば過度の思考に悩まされ、単純な問題に対して必要以上に長い推論ステップが生じる。
本稿では, 推論過程を通じて探索範囲を計測する新しい計量量であるToken Entropy Cumulative Average(TECA)を紹介する。
論文 参考訳(メタデータ) (2025-10-02T17:36:50Z) - Thinking Before You Speak: A Proactive Test-time Scaling Approach [54.8205006555199]
emphThinking Before You Speak (TBYS)という名前の推論フレームワークとして、私たちのアイデアを実装しています。
インテリジェンス生成のためのコンテキスト内サンプルを自動的に収集・フィルタリングするパイプラインを設計する。
挑戦的な数学的データセットの実験は、TBYSの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-26T03:43:32Z) - Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models [28.756240721942138]
RLLM(Reasoning large language model)は、最近、構造化および多段階推論によって顕著な機能を示した。
我々は新しいICLパラダイムであるThinking with Nothinking (JointThinking)を提案する。
JointThinkingは、数発のチェーン・オブ・シークレット(CoT)を2回、過半数で上回っている。
論文 参考訳(メタデータ) (2025-08-05T12:09:55Z) - Does Thinking More always Help? Mirage of Test-Time Scaling in Reasoning Models [130.5487886246353]
Wait"や"Let me rethink"といったプロンプトを使って思考トレースを拡張することで、パフォーマンスが向上します。
テスト時にもっと考えることは、本当により良い推論につながるのでしょうか?
過度に考える”という理由から,新たな思考による初期パフォーマンス改善の一貫したパターンと,それに続く低下を示す。
論文 参考訳(メタデータ) (2025-06-04T17:55:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。