論文の概要: Auto-Evolve: Enhancing Large Language Model's Performance via Self-Reasoning Framework
- arxiv url: http://arxiv.org/abs/2410.06328v2
- Date: Fri, 11 Oct 2024 20:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 06:29:16.940703
- Title: Auto-Evolve: Enhancing Large Language Model's Performance via Self-Reasoning Framework
- Title(参考訳): Auto-Evolve: 自己推論フレームワークによる大規模言語モデルのパフォーマンス向上
- Authors: Krishna Aswani, Huilin Lu, Pranav Patankar, Priya Dhalwani, Iris Tan, Jayant Ganeshmohan, Simon Lacasse,
- Abstract要約: Auto-Evolveは、大規模言語モデルが動的推論モジュールを自己生成できるようにする新しいフレームワークである。
我々は、Claude 2.0、Claude 3 Sonnet、Mistral Large、GPT 4による挑戦的なBigBench-HardデータセットのAuto-Evolveを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in prompt engineering strategies, such as Chain-of-Thought (CoT) and Self-Discover, have demonstrated significant potential in improving the reasoning abilities of Large Language Models (LLMs). However, these state-of-the-art (SOTA) prompting strategies rely on single or fixed set of static seed reasoning modules like "think step by step" or "break down this problem" intended to simulate human approach to problem-solving. This constraint limits the flexibility of models in tackling diverse problems effectively. In this paper, we introduce Auto-Evolve, a novel framework that enables LLMs to self-create dynamic reasoning modules and downstream action plan, resulting in significant improvements over current SOTA methods. We evaluate Auto-Evolve on the challenging BigBench-Hard (BBH) dataset with Claude 2.0, Claude 3 Sonnet, Mistral Large, and GPT 4, where it consistently outperforms the SOTA prompt strategies. Auto-Evolve outperforms CoT by up to 10.4% and on an average by 7% across these four models. Our framework introduces two innovations: a) Auto-Evolve dynamically generates reasoning modules for each task while aligning with human reasoning paradigm, thus eliminating the need for predefined templates. b) We introduce an iterative refinement component, that incrementally refines instruction guidance for LLMs and helps boost performance by average 2.8% compared to doing it in a single step.
- Abstract(参考訳): CoT(Chain-of-Thought)やSelf-Discover(Self-Discover)といった急進的なエンジニアリング戦略の進歩は、Large Language Models(LLMs)の推論能力を改善する大きな可能性を示している。
しかし、これらの最先端(SOTA)の戦略を促進するには、「ステップバイステップ」や「この問題を分解する」といった静的な推論モジュールの単一あるいは固定的なセットを頼りにしており、人間の問題解決へのアプローチをシミュレートする。
この制約は、多様な問題に効果的に取り組む際のモデルの柔軟性を制限する。
本稿では,LLMが動的推論モジュールと下流動作計画の自己生成を可能にする新しいフレームワークであるAuto-Evolveを紹介する。
我々は、Claude 2.0、Claude 3 Sonnet、Mistral Large、GPT 4による難易度の高いBigBench-Hard(BBH)データセットのAuto-Evolveを評価する。
Auto-EvolveはCoTを最大10.4%上回り、4つのモデルで平均7%上回っている。
私たちのフレームワークには2つのイノベーションがあります。
a) Auto-Evolveは、人間の推論パラダイムと整合しながら、タスク毎の推論モジュールを動的に生成することにより、事前定義されたテンプレートの必要性を排除します。
b) LLMの指導指導を段階的に洗練し, 1ステップで行うよりも平均2.8%向上する反復改良部品を導入する。
関連論文リスト
- On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Module-wise Adaptive Adversarial Training for End-to-end Autonomous Driving [33.90341803416033]
エンドツーエンドの自律運転モデルのためのモジュールワイド適応適応適応訓練(MA2T)を提案する。
本稿では,異なるモジュールが入力される前にノイズを注入するモジュールワイドノイズインジェクションについて紹介する。
また,各モジュールの損失重みを適応的に学習・調整するために,蓄積した重み変化を組み込んだ動的重み蓄積適応を導入する。
論文 参考訳(メタデータ) (2024-09-11T15:00:18Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z) - Large Language Models Are Also Good Prototypical Commonsense Reasoners [11.108562540123387]
従来の微調整アプローチはリソース集約的であり、モデルの一般化能力を損なう可能性がある。
我々は、調整されたタスクのための大規模モデルの出力からインスピレーションを受け、半自動で新しいプロンプトのセットを開発した。
より優れた設計のプロンプトによって、ProtoQAのリーダーボードで新しい最先端(SOTA)を達成することができます。
論文 参考訳(メタデータ) (2023-09-22T20:07:24Z) - Chain-of-Thought Hub: A Continuous Effort to Measure Large Language
Models' Reasoning Performance [35.38549845444575]
Chain-of-Thought Hubは、大規模な言語モデルの多段階推論機能に関するオープンソースの評価スイートである。
提案するChain-of-Thought Hubは,大規模言語モデルの多段階推論機能に関するオープンソース評価スイートである。
論文 参考訳(メタデータ) (2023-05-26T23:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。