Fugu-MT 論文翻訳(概要): OptimalThinkingBench: Evaluating Over and Underthinking in LLMs

論文の概要: OptimalThinkingBench: Evaluating Over and Underthinking in LLMs

arxiv url: http://arxiv.org/abs/2508.13141v1
Date: Mon, 18 Aug 2025 17:53:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-19 14:49:11.520371
Title: OptimalThinkingBench: Evaluating Over and Underthinking in LLMs
Title（参考訳）: OptimalThinkingBench: LLMの評価と検討
Authors: Pranjal Aggarwal, Seungone Kim, Jack Lanchantin, Sean Welleck, Jason Weston, Ilia Kulikov, Swarnadeep Saha,
Abstract要約: LLMは計算量を増やし、より単純な問題を過度に考えることで、複雑なタスクを解決します。非思考のLSMはより高速で安価ですが、より難しい推論の問題について考えています。 LLMにおける過度な考えと過小評価を共同で評価する統一ベンチマークであるOptimalThinkingBenchを紹介する。
参考スコア（独自算出の注目度）: 51.2207559914731
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Thinking LLMs solve complex tasks at the expense of increased compute and overthinking on simpler problems, while non-thinking LLMs are faster and cheaper but underthink on harder reasoning problems. This has led to the development of separate thinking and non-thinking LLM variants, leaving the onus of selecting the optimal model for each query on the end user. In this work, we introduce OptimalThinkingBench, a unified benchmark that jointly evaluates overthinking and underthinking in LLMs and also encourages the development of optimally-thinking models that balance performance and efficiency. Our benchmark comprises two sub-benchmarks: OverthinkingBench, featuring simple queries in 72 domains, and UnderthinkingBench, containing 11 challenging reasoning tasks. Using novel thinking-adjusted accuracy metrics, we perform extensive evaluation of 33 different thinking and non-thinking models and show that no model is able to optimally think on our benchmark. Thinking models often overthink for hundreds of tokens on the simplest user queries without improving performance. In contrast, large non-thinking models underthink, often falling short of much smaller thinking models. We further explore several methods to encourage optimal thinking, but find that these approaches often improve on one sub-benchmark at the expense of the other, highlighting the need for better unified and optimal models in the future.
Abstract（参考訳）: LLMは計算量の増加と単純な問題の再考を犠牲にして複雑なタスクを解く一方で、非思考のLLMはより高速で安価だが、より難しい推論の問題について再考する。これにより、別々の思考と非思考のLLM変種が開発され、エンドユーザーのクエリ毎に最適なモデルを選択するという概念が残されている。本研究では,LLMにおける過大な検討と過小評価を共同で行う統一ベンチマークであるOptimalThinkingBenchを紹介し,性能と効率のバランスをとる最適思考モデルの開発を奨励する。ベンチマークでは、72のドメインで単純なクエリを特徴とする OverthinkingBench と、11の難しい推論タスクを含む UnderthinkingBench という2つのサブベンチマークで構成されています。新たな思考調整精度指標を用いて33の異なる思考モデルと非思考モデルの広範囲な評価を行い、ベンチマークで最適な思考ができないことを示す。モデルは、パフォーマンスを向上することなく、最も単純なユーザクエリ上で数百のトークンを過大評価することが多い。対照的に、大きな非思考モデルは、しばしばより小さな思考モデルに欠ける。さらに、最適な思考を促すためのいくつかの方法についても検討するが、これらのアプローチは、あるサブベンチマークにおいて、他方を犠牲にして改善されることがしばしばあり、将来的な統一モデルと最適モデルの必要性を強調している。

関連論文リスト

The Virtues of Brevity: Avoid Overthinking in Parallel Test-Time Reasoning [0.7874708385247352]
最短解を選択するための単純かつ直感的手法は極めて有効であることを示す。このアプローチが自己整合性などの複雑な手法と競合していることを確認する。
論文参考訳（メタデータ） (2025-10-24T00:47:17Z)
SmartSwitch: Advancing LLM Reasoning by Overcoming Underthinking via Promoting Deeper Thought Exploration [49.290631188365786]
ロングチェーン・オブ・シークレット(LongCoT)は、複雑な推論タスクにおいて、大規模言語モデルによって達成された最近のブレークスルーの中心である。本稿では,SmartSwitch推論フレームワークという,シンプルで効果的な推論手法を提案する。このフレームワークは、プラグイン・アンド・プレイソリューションとして、どんな大きな言語モデルにも簡単に統合できる。
論文参考訳（メタデータ） (2025-10-22T16:56:01Z)
Do LLMs Really Need 10+ Thoughts for "Find the Time 1000 Days Later"? Towards Structural Understanding of LLM Overthinking [46.43570276604168]
ロングチェーン・オブ・シント(CoT)モデルは、単純なクエリであっても、必要以上に広範囲な推論を行うことが多い。本研究では, LLMの思考過程の体系的, きめ細かな解析を行い, そのギャップ, TRACEを橋渡しする。筆者らは,長さに基づくメトリクスを超えて,過剰思考のユーティリティベース定義を提案する。
論文参考訳（メタデータ） (2025-10-09T07:33:25Z)
Gold-Switch: Training-Free Superposition of Slow- and Fast- Thinking LLMs [36.84838904299283]
大規模推論モデル(LRM)は、意図的な人間の推論をエミュレートすることで、構造化されたタスクに優れるが、しばしば過度な考えに悩まされる。本稿では,1つのモデルのオン/オフによるスイッチング推論を最適化するために,軽量でトレーニング不要な規制を施したデプロイ戦略を提案する。
論文参考訳（メタデータ） (2025-10-08T08:17:57Z)
Explore Briefly, Then Decide: Mitigating LLM Overthinking via Cumulative Entropy Regulation [82.62935304152239]
大規模言語モデル(LLM)は、長いチェーン・オブ・ソート(CoT)推論を用いた複雑な問題に対する顕著な推論能力を示した。しばしば過度の思考に悩まされ、単純な問題に対して必要以上に長い推論ステップが生じる。本稿では, 推論過程を通じて探索範囲を計測する新しい計量量であるToken Entropy Cumulative Average(TECA)を紹介する。
論文参考訳（メタデータ） (2025-10-02T17:36:50Z)
Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models [23.642200042199484]
我々は、大規模言語モデル(RLLM)を推論するための文脈内学習(ICL)パラダイムとして、思考を伴う思考(JointThinking)を提案する。提案手法は,思考モードと思考モードの2つの回答を並列に生成する。 JointThinkingは、数発のチェーン・オブ・シークレット・ロバスト性(CoT)と、回答の改善による多数決を著しく上回っている。
論文参考訳（メタデータ） (2025-08-05T12:09:55Z)
Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models [103.03315678501546]
Wait"や"Let me rethink"といったプロンプトを使って思考トレースを拡張することで、パフォーマンスが向上します。テスト時にもっと考えることは、本当により良い推論につながるのでしょうか? 過度に考える”という理由から,新たな思考による初期パフォーマンス改善の一貫したパターンと,それに続く低下を示す。
論文参考訳（メタデータ） (2025-06-04T17:55:09Z)
Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文参考訳（メタデータ） (2025-05-20T16:53:40Z)
AdaptThink: Reasoning Models Can Learn When to Think [42.77877234302026]
本稿では,問題難易度に基づいて最適な思考モードを選択するために推論モデルを教える新しいRLアルゴリズムであるAdaptThinkを提案する。実験の結果,AdaptThinkは推論コストを大幅に削減し,性能をさらに向上することが示された。
論文参考訳（メタデータ） (2025-05-19T17:50:52Z)
Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。 Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文参考訳（メタデータ） (2025-05-19T17:24:16Z)
Reasoning Models Can Be Effective Without Thinking [45.411955744222524]
NoThinkingと呼ばれる単純なプロンプトによって思考プロセスをバイパスすることは驚くほど効果的である。提案手法は,Thinkingと同等のレイテンシで,より長いレイテンシ(最大9倍)でThinkingに匹敵する,一連のベースライン性能を向上する。
論文参考訳（メタデータ） (2025-04-14T04:08:16Z)
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文参考訳（メタデータ） (2025-01-30T18:58:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。