論文の概要: Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
- arxiv url: http://arxiv.org/abs/2412.21187v1
- Date: Mon, 30 Dec 2024 18:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:01:10.753628
- Title: Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
- Title(参考訳): 2+3=それ以上は考えない? o1-like LLMの再考
- Authors: Xingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu,
- Abstract要約: o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
- 参考スコア(独自算出の注目度): 76.43407125275202
- License:
- Abstract: The remarkable performance of models like the OpenAI o1 can be attributed to their ability to emulate human-like long-time thinking during inference. These models employ extended chain-of-thought (CoT) processes, exploring multiple strategies to enhance problem-solving capabilities. However, a critical question remains: How to intelligently and efficiently scale computational resources during testing. This paper presents the first comprehensive study on the prevalent issue of overthinking in these models, where excessive computational resources are allocated for simple problems with minimal benefit. We introduce novel efficiency metrics from both outcome and process perspectives to evaluate the rational use of computational resources by o1-like models. Using a self-training paradigm, we propose strategies to mitigate overthinking, streamlining reasoning processes without compromising accuracy. Experimental results show that our approach successfully reduces computational overhead while preserving model performance across a range of testsets with varying difficulty levels, such as GSM8K, MATH500, GPQA, and AIME.
- Abstract(参考訳): OpenAI o1のようなモデルの性能は、推論中に人間のような長時間の思考をエミュレートする能力に起因している。
これらのモデルは拡張チェーン・オブ・シント(CoT)プロセスを採用し、問題解決能力を高めるための複数の戦略を模索している。
しかし、重要な疑問が残る: テスト中の計算リソースをインテリジェントかつ効率的にスケールする方法。
本稿では,これらのモデルにおいて過度な計算資源を最小限の利点を持つ単純な問題に割り当てる場合において,過度に考慮すべき課題について,まず包括的な研究を行った。
結果とプロセスの観点からの新たな効率指標を導入し,o1-likeモデルによる計算資源の合理的利用を評価する。
自己学習のパラダイムを用いて、精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
実験の結果,GSM8K, MATH500, GPQA, AIME など,様々な難易度を持つテストセットのモデル性能を保ちながら, 計算オーバーヘッドを低減できた。
関連論文リスト
- A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Taking the human out of decomposition-based optimization via artificial
intelligence: Part II. Learning to initialize [0.0]
提案手法は解時間を大幅に短縮することができる。
アクティブかつ教師付き学習は、計算性能を予測する代理モデルを学ぶために使用される。
その結果,提案手法が解時間を大幅に短縮する可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-10T23:49:26Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Delayed Geometric Discounts: An Alternative Criterion for Reinforcement
Learning [1.52292571922932]
強化学習(RL)は、最適行動を学ぶ理論的背景を提案する。
実際には、RLアルゴリズムはこの最適性を評価するために幾何割引に依存する。
本稿では,遅延対象関数の族による割引問題定式化を一般化することにより,これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-26T07:49:38Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。