Fugu-MT 論文翻訳(概要): The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks

論文の概要: The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks

arxiv url: http://arxiv.org/abs/2502.08235v1
Date: Wed, 12 Feb 2025 09:23:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:00.929588
Title: The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
Title（参考訳）: 過剰思考の危険--エージェント・タスクにおける推論・アクション・ジレンマの検討
Authors: Alejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez,
Abstract要約: 大規模推論モデル(LRM)は、AI問題解決能力の突破口となるが、インタラクティブ環境での有効性は制限される可能性がある。本稿では, LRMにおける過度な考察を紹介し, 分析する。解析的麻痺,ローグ行動,早期解離の3つのパターンを観察した。
参考スコア（独自算出の注目度）: 96.27754404942364
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Reasoning Models (LRMs) represent a breakthrough in AI problem-solving capabilities, but their effectiveness in interactive environments can be limited. This paper introduces and analyzes overthinking in LRMs. A phenomenon where models favor extended internal reasoning chains over environmental interaction. Through experiments on software engineering tasks using SWE Bench Verified, we observe three recurring patterns: Analysis Paralysis, Rogue Actions, and Premature Disengagement. We propose a framework to study these behaviors, which correlates with human expert assessments, and analyze 4018 trajectories. We observe that higher overthinking scores correlate with decreased performance, with reasoning models exhibiting stronger tendencies toward overthinking compared to non-reasoning models. Our analysis reveals that simple efforts to mitigate overthinking in agentic environments, such as selecting the solution with the lower overthinking score, can improve model performance by almost 30% while reducing computational costs by 43%. These results suggest that mitigating overthinking has strong practical implications. We suggest that by leveraging native function-calling capabilities and selective reinforcement learning overthinking tendencies could be mitigated. We also open-source our evaluation framework and dataset to facilitate research in this direction at https://github.com/AlexCuadron/Overthinking.
Abstract（参考訳）: 大規模推論モデル(LRM)は、AI問題解決能力の突破口となるが、インタラクティブ環境での有効性は制限される可能性がある。本稿では, LRMにおける過度な考察を紹介し, 分析する。モデルが環境相互作用よりも内部推論チェーンの拡張を好む現象。 SWE Bench Verified を用いたソフトウェアエンジニアリングタスクの実験を通じて,解析的解析,ローグ行動,早期解離という3つの繰り返しパターンを観察する。人間の専門的評価と相関するこれらの行動を研究するための枠組みを提案し,4018の軌跡を解析した。過剰思考スコアは,非推論モデルと比較して,過剰思考に対する傾向が強いため,性能低下と相関することを示した。分析の結果, エージェント環境における過度な思考を緩和するための簡単な取り組みとして, 計算コストを43%削減しつつ, 解を低い過度なスコアで選択することで, モデル性能を約30%向上させることができることがわかった。これらの結果は、過度に考えることの軽減が、強力な実践的意味を持っていることを示唆している。そこで本研究では,ネイティブ関数呼び出し機能を活用して,傾向を考慮し,選択的強化学習を行うことにより,傾向を緩和できる可能性が示唆された。また、評価フレームワークとデータセットをオープンソース化し、https://github.com/AlexCuadron/Overthinking.comでこの方向の研究を進めています。

関連論文リスト

Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill? [27.374491920521745]
不十分な前提条件 (MiP) を持つ不適切な質問に対して, LLM の応答長が劇的に増加することが判明した。この新たなシナリオは、MiP-Overthinking(英語版)と呼ばれる一般的な過剰思考問題をかなり悪化させます。驚いたことに、LSMは特に推論の訓練を受けていないため、MiPのシナリオではより優れたパフォーマンスを示し、不適切なクエリを素早く識別するより短いレスポンスを生み出した。
論文参考訳（メタデータ） (2025-04-09T01:25:27Z)
Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文参考訳（メタデータ） (2025-03-23T08:18:51Z)
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文参考訳（メタデータ） (2025-01-30T18:58:18Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Synergy-of-Thoughts: Eliciting Efficient Reasoning in Hybrid Language Models [19.466985579720507]
大規模言語モデル(LLM)は、広範囲のタスクにおいて顕著な創発能力を示しているが、関連する高価なAPIコストは、実際のアプリケーションを大幅に制限している。本稿では,異なるスケールのハイブリッドLLMの相乗的ポテンシャルを効率的に推論するために,「思考のシネルギー」を提案する。 SoTはAPIコストを38.3%-75.1%削減し、最先端の推論精度とソリューションの多様性を同時に達成している。
論文参考訳（メタデータ） (2024-02-04T16:45:01Z)
Reflexion: Language Agents with Verbal Reinforcement Learning [44.85337947858337]
リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
論文参考訳（メタデータ） (2023-03-20T18:08:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。