論文の概要: Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
- arxiv url: http://arxiv.org/abs/2501.18585v1
- Date: Thu, 30 Jan 2025 18:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:10.322492
- Title: Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
- Title(参考訳): o1ライクなLLMを思い浮かべてみた
- Authors: Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu,
- Abstract要約: OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
- 参考スコア(独自算出の注目度): 86.79757571440082
- License:
- Abstract: Large language models (LLMs) such as OpenAI's o1 have demonstrated remarkable abilities in complex reasoning tasks by scaling test-time compute and exhibiting human-like deep thinking. However, we identify a phenomenon we term underthinking, where o1-like LLMs frequently switch between different reasoning thoughts without sufficiently exploring promising paths to reach a correct solution. This behavior leads to inadequate depth of reasoning and decreased performance, particularly on challenging mathematical problems. To systematically analyze this issue, we conduct experiments on three challenging test sets and two representative open-source o1-like models, revealing that frequent thought switching correlates with incorrect responses. We introduce a novel metric to quantify underthinking by measuring token efficiency in incorrect answers. To address underthinking, we propose a decoding strategy with thought switching penalty TIP that discourages premature transitions between thoughts, encouraging deeper exploration of each reasoning path. Experimental results demonstrate that our approach improves accuracy across challenging datasets without requiring model fine-tuning. Our findings contribute to understanding reasoning inefficiencies in o1-like LLMs and offer a practical solution to enhance their problem-solving capabilities.
- Abstract(参考訳): OpenAIのo1のような大規模言語モデル(LLM)は、テスト時間計算をスケールし、人間のような深い思考を示すことによって、複雑な推論タスクにおいて顕著な能力を示している。
しかし、我々は、o1-like LLMが正しい解に到達するための十分な期待できる道を探ることなく、しばしば異なる推論の考えを切り替える現象を過小評価する。
この振る舞いは、特に挑戦的な数学的問題において、推論の不十分な深さと性能の低下につながる。
この問題を体系的に解析するため、3つの挑戦的なテストセットと2つの代表的なオープンソースo1-likeモデルで実験を行い、頻繁な思考の切り替えは誤った反応と相関することを示した。
誤答のトークン効率を計測し, 未考を定量化するための新しい指標を提案する。
そこで本研究では,思考間の早期移行を回避し,各思考経路のより深い探索を奨励する思考切替ペナルティTIPを用いた復号戦略を提案する。
実験結果から,モデルの微調整を必要とせずに,挑戦的なデータセットの精度を向上させることができた。
本研究は,o1-like LLMにおける推論非効率の理解に寄与し,その問題解決能力を高めるための実用的なソリューションを提供する。
関連論文リスト
- Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6028674686018]
エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。
提案アルゴリズムは,ベイズ理論をモデルとした。
本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文 参考訳(メタデータ) (2025-02-17T15:08:50Z) - The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks [96.27754404942364]
大規模推論モデル(LRM)は、AI問題解決能力の突破口となるが、インタラクティブ環境での有効性は制限される可能性がある。
本稿では, LRMにおける過度な考察を紹介し, 分析する。
解析的麻痺,ローグ行動,早期解離の3つのパターンを観察した。
論文 参考訳(メタデータ) (2025-02-12T09:23:26Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Boosting of Thoughts: Trial-and-Error Problem Solving with Large Language Models [43.09706839884221]
Boosting of Thoughts (BoT)は、大規模言語モデルによる問題解決のための自動プロンプトフレームワークである。
我々は,BoTが他の先進的なプロンプト手法よりも高い,あるいは同等の問題解決率を達成することを示す。
論文 参考訳(メタデータ) (2024-02-17T00:13:36Z) - Synergy-of-Thoughts: Eliciting Efficient Reasoning in Hybrid Language Models [19.466985579720507]
大規模言語モデル(LLM)は、広範囲のタスクにおいて顕著な創発能力を示しているが、関連する高価なAPIコストは、実際のアプリケーションを大幅に制限している。
本稿では,異なるスケールのハイブリッドLLMの相乗的ポテンシャルを効率的に推論するために,「思考のシネルギー」を提案する。
SoTはAPIコストを38.3%-75.1%削減し、最先端の推論精度とソリューションの多様性を同時に達成している。
論文 参考訳(メタデータ) (2024-02-04T16:45:01Z) - Everything of Thoughts: Defying the Law of Penrose Triangle for Thought
Generation [42.472954457731355]
本稿では,既存の思考パラダイムの「ペンローズ三角形」の法則に反する,思考のすべて(XoT)と呼ばれる新しい思考促進手法を紹介する。
XoTは、事前訓練された強化学習とモンテカルロ木探索(MCTS)を活用して、外部ドメイン知識を思考に組み込む。
我々は,ゲーム24,8-Puzzle,Pocket Cubeなど,難解な複数解問題に対するXoTの評価を行った。
論文 参考訳(メタデータ) (2023-11-07T12:30:36Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。