論文の概要: Evolving Deeper LLM Thinking
- arxiv url: http://arxiv.org/abs/2501.09891v1
- Date: Fri, 17 Jan 2025 00:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:59:53.362443
- Title: Evolving Deeper LLM Thinking
- Title(参考訳): より深いLLM思考の進化
- Authors: Kuang-Huei Lee, Ian Fischer, Yueh-Hua Wu, Dave Marwood, Shumeet Baluja, Dale Schuurmans, Xinyun Chen,
- Abstract要約: 提案したアプローチであるMind Evolutionは、言語モデルを使用して、候補応答を生成し、再結合し、洗練する。
Mind Evolutionは自然言語計画タスクにおいて、Best-of-NやSequential Revisionといった他の推論戦略よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 61.61227021098086
- License:
- Abstract: We explore an evolutionary search strategy for scaling inference time compute in Large Language Models. The proposed approach, Mind Evolution, uses a language model to generate, recombine and refine candidate responses. The proposed approach avoids the need to formalize the underlying inference problem whenever a solution evaluator is available. Controlling for inference cost, we find that Mind Evolution significantly outperforms other inference strategies such as Best-of-N and Sequential Revision in natural language planning tasks. In the TravelPlanner and Natural Plan benchmarks, Mind Evolution solves more than 98% of the problem instances using Gemini 1.5 Pro without the use of a formal solver.
- Abstract(参考訳): 大規模言語モデルにおける推論時間計算のスケーリングのための進化的探索戦略について検討する。
提案したアプローチであるMind Evolutionは、言語モデルを使用して、候補応答を生成し、再結合し、洗練する。
提案手法では,解評価器が利用可能であれば,基礎となる推論問題を形式化する必要がなくなる。
推論コストの制御により,Mind Evolution は自然言語計画タスクにおいて,Best-of-N やSequential Revision などの推論戦略を著しく上回っていることがわかった。
TravelPlannerとNatural Planのベンチマークでは、Mind Evolutionは、フォーマルな解決器を使わずに、Gemini 1.5 Proを使用して、問題のインスタンスの98%以上を解決している。
関連論文リスト
- Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Leveraging automatic strategy discovery to teach people how to select better projects [0.9821874476902969]
個人や組織の決定は、規範的な決定戦略が現実の世界であまりにも要求されているため、過小評価されることが多い。
最近の研究は、人工知能を利用して規範的な意思決定戦略を発見し、教えることによって、いくつかのエラーを防ぐことができることを示唆している。
この記事は、このアプローチを現実の意思決定問題、すなわちプロジェクト選択に拡張する最初のものです。
論文 参考訳(メタデータ) (2024-06-06T13:51:44Z) - Discovering Evolution Strategies via Meta-Black-Box Optimization [23.956974467496345]
メタラーニングによる進化戦略の効果的な更新ルールの発見を提案する。
本手法では,自己注意型アーキテクチャによってパラメータ化された探索戦略を用いる。
進化戦略をスクラッチから自己参照的に訓練することは可能であり、学習された更新ルールは外部メタラーニングループを駆動するために使用される。
論文 参考訳(メタデータ) (2022-11-21T08:48:46Z) - Socio-cognitive Optimization of Time-delay Control Problems using
Evolutionary Metaheuristics [89.24951036534168]
メタヒューリスティックス(Metaheuristics)は、古典的なアプローチでは解決できない難解な問題を解くために使用される普遍的な最適化アルゴリズムである。
本稿では,キャストに基づく新しい社会認知メタヒューリスティックの構築を目標とし,このアルゴリズムのいくつかのバージョンを時間遅延システムモデルの最適化に適用する。
論文 参考訳(メタデータ) (2022-10-23T22:21:10Z) - Runtime Analysis of Competitive co-Evolutionary Algorithms for Maximin Optimisation of a Bilinear Function [1.3053649021965603]
共進化的アルゴリズムには、ハードウェア設計、ボードゲーム戦略の進化、ソフトウェアバグのパッチなど、幅広い応用がある。
共進化的アルゴリズムが解を効率的にかつ確実に見つけることを予測できる理論を開発することは、オープンな挑戦である。
本稿では,人口ベース競争共進化型アルゴリズムのランタイム解析開発における第一歩について述べる。
論文 参考訳(メタデータ) (2022-06-30T12:35:36Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。