Fugu-MT 論文翻訳(概要): Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models

論文の概要: Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models

arxiv url: http://arxiv.org/abs/2506.04210v1
Date: Wed, 04 Jun 2025 17:55:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.508794
Title: Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models
Title（参考訳）: 思考は常に役に立つか? 推論モデルにおけるテスト時間のスケーリングを理解する
Authors: Soumya Suvra Ghosal, Souradip Chakraborty, Avinash Reddy, Yifu Lu, Mengdi Wang, Dinesh Manocha, Furong Huang, Mohammad Ghavamzadeh, Amrit Singh Bedi,
Abstract要約: Wait"や"Let me rethink"といったプロンプトを使って思考トレースを拡張することで、パフォーマンスが向上します。テスト時にもっと考えることは、本当により良い推論につながるのでしょうか? 過度に考える”という理由から,新たな思考による初期パフォーマンス改善の一貫したパターンと,それに続く低下を示す。
参考スコア（独自算出の注目度）: 103.03315678501546
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent trends in test-time scaling for reasoning models (e.g., OpenAI o1, DeepSeek R1) have led to a popular belief that extending thinking traces using prompts like "Wait" or "Let me rethink" can improve performance. This raises a natural question: Does thinking more at test-time truly lead to better reasoning? To answer this question, we perform a detailed empirical study across models and benchmarks, which reveals a consistent pattern of initial performance improvements from additional thinking followed by a decline, due to "overthinking". To understand this non-monotonic trend, we consider a simple probabilistic model, which reveals that additional thinking increases output variance-creating an illusion of improved reasoning while ultimately undermining precision. Thus, observed gains from "more thinking" are not true indicators of improved reasoning, but artifacts stemming from the connection between model uncertainty and evaluation metric. This suggests that test-time scaling through extended thinking is not an effective way to utilize the inference thinking budget. Recognizing these limitations, we introduce an alternative test-time scaling approach, parallel thinking, inspired by Best-of-N sampling. Our method generates multiple independent reasoning paths within the same inference budget and selects the most consistent response via majority vote, achieving up to 20% higher accuracy compared to extended thinking. This provides a simple yet effective mechanism for test-time scaling of reasoning models.
Abstract（参考訳）: 推論モデル(例:OpenAI o1,DeepSeek R1)のテスト時間スケーリングの最近の傾向は、"Wait"や"Let me rethink"といったプロンプトを使って思考トレースを拡張することで、パフォーマンスが向上する、という一般的な信念につながっている。テスト時にもっと考えることは、本当により良い推論につながるのでしょうか? この疑問に答えるために、我々はモデルとベンチマークにまたがる詳細な実証的研究を行い、追加の思考による初期性能改善の一貫したパターンを明らかにした。この非単調な傾向を理解するために、我々は単純な確率モデルを考える。これは、追加の思考が出力の分散を増大させ、最終的には精度を損なうとともに、改善された推論の錯覚を生み出すことを明らかにする。したがって、「より思考」による観察された利得は、改良された推論の真の指標ではなく、モデルの不確実性と評価指標の関連から生じる成果である。これは、拡張思考によるテストタイムのスケーリングが、推論思考予算を利用する効果的な方法ではないことを示唆している。これらの制約を認識して、Best-of-Nサンプリングにインスパイアされた並列思考という、テスト時間スケーリングの代替アプローチを導入する。提案手法は,複数の独立した推論経路を同一の推論予算内で生成し,多数決によって最も一貫した応答を選択する。これは推論モデルのテスト時間スケーリングにシンプルだが効果的なメカニズムを提供する。

関連論文リスト

Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models [23.642200042199484]
我々は、大規模言語モデル(RLLM)を推論するための文脈内学習(ICL)パラダイムとして、思考を伴う思考(JointThinking)を提案する。提案手法は,思考モードと思考モードの2つの回答を並列に生成する。 JointThinkingは、数発のチェーン・オブ・シークレット・ロバスト性(CoT)と、回答の改善による多数決を著しく上回っている。
論文参考訳（メタデータ） (2025-08-05T12:09:55Z)
Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-06-27T09:53:57Z)
Efficient Reasoning Through Suppression of Self-Affirmation Reflections in Large Reasoning Models [29.615519143908998]
自己確認反射は、事前の内容を肯定する冗長な反射ステップであり、しばしば既に正しい推論ステップの後に起こる。自己確認反射の抑制は複数のモデル間で精度を低下させることなく出力長を減少させることを示す。また、そのような反射を明示的に抑制することで、現行の列車方式も改善する。
論文参考訳（メタデータ） (2025-06-14T05:30:09Z)
Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。本稿では,自己疑念の観点から,過剰思考を定量的に分析する。本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文参考訳（メタデータ） (2025-05-29T14:30:02Z)
Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文参考訳（メタデータ） (2025-05-20T16:53:40Z)
Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文参考訳（メタデータ） (2025-04-18T19:32:55Z)
Reasoning Models Can Be Effective Without Thinking [45.411955744222524]
NoThinkingと呼ばれる単純なプロンプトによって思考プロセスをバイパスすることは驚くほど効果的である。提案手法は,Thinkingと同等のレイテンシで,より長いレイテンシ(最大9倍)でThinkingに匹敵する,一連のベースライン性能を向上する。
論文参考訳（メタデータ） (2025-04-14T04:08:16Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文参考訳（メタデータ） (2025-01-30T18:58:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。