Fugu-MT 論文翻訳(概要): Auto-Evolve: Enhancing Large Language Model's Performance via Self-Reasoning Framework

論文の概要: Auto-Evolve: Enhancing Large Language Model's Performance via Self-Reasoning Framework

arxiv url: http://arxiv.org/abs/2410.06328v2
Date: Fri, 11 Oct 2024 20:39:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 06:29:16.940703
Title: Auto-Evolve: Enhancing Large Language Model's Performance via Self-Reasoning Framework
Title（参考訳）: Auto-Evolve: 自己推論フレームワークによる大規模言語モデルのパフォーマンス向上
Authors: Krishna Aswani, Huilin Lu, Pranav Patankar, Priya Dhalwani, Iris Tan, Jayant Ganeshmohan, Simon Lacasse,
Abstract要約: Auto-Evolveは、大規模言語モデルが動的推論モジュールを自己生成できるようにする新しいフレームワークである。我々は、Claude 2.0、Claude 3 Sonnet、Mistral Large、GPT 4による挑戦的なBigBench-HardデータセットのAuto-Evolveを評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in prompt engineering strategies, such as Chain-of-Thought (CoT) and Self-Discover, have demonstrated significant potential in improving the reasoning abilities of Large Language Models (LLMs). However, these state-of-the-art (SOTA) prompting strategies rely on single or fixed set of static seed reasoning modules like "think step by step" or "break down this problem" intended to simulate human approach to problem-solving. This constraint limits the flexibility of models in tackling diverse problems effectively. In this paper, we introduce Auto-Evolve, a novel framework that enables LLMs to self-create dynamic reasoning modules and downstream action plan, resulting in significant improvements over current SOTA methods. We evaluate Auto-Evolve on the challenging BigBench-Hard (BBH) dataset with Claude 2.0, Claude 3 Sonnet, Mistral Large, and GPT 4, where it consistently outperforms the SOTA prompt strategies. Auto-Evolve outperforms CoT by up to 10.4% and on an average by 7% across these four models. Our framework introduces two innovations: a) Auto-Evolve dynamically generates reasoning modules for each task while aligning with human reasoning paradigm, thus eliminating the need for predefined templates. b) We introduce an iterative refinement component, that incrementally refines instruction guidance for LLMs and helps boost performance by average 2.8% compared to doing it in a single step.
Abstract（参考訳）: CoT(Chain-of-Thought)やSelf-Discover(Self-Discover)といった急進的なエンジニアリング戦略の進歩は、Large Language Models(LLMs)の推論能力を改善する大きな可能性を示している。しかし、これらの最先端(SOTA)の戦略を促進するには、「ステップバイステップ」や「この問題を分解する」といった静的な推論モジュールの単一あるいは固定的なセットを頼りにしており、人間の問題解決へのアプローチをシミュレートする。この制約は、多様な問題に効果的に取り組む際のモデルの柔軟性を制限する。本稿では,LLMが動的推論モジュールと下流動作計画の自己生成を可能にする新しいフレームワークであるAuto-Evolveを紹介する。我々は、Claude 2.0、Claude 3 Sonnet、Mistral Large、GPT 4による難易度の高いBigBench-Hard(BBH)データセットのAuto-Evolveを評価する。 Auto-EvolveはCoTを最大10.4%上回り、4つのモデルで平均7%上回っている。私たちのフレームワークには2つのイノベーションがあります。 a) Auto-Evolveは、人間の推論パラダイムと整合しながら、タスク毎の推論モジュールを動的に生成することにより、事前定義されたテンプレートの必要性を排除します。 b) LLMの指導指導を段階的に洗練し, 1ステップで行うよりも平均2.8%向上する反復改良部品を導入する。

関連論文リスト

Weak-for-Strong: Training Weak Meta-Agent to Harness Strong Executors [104.5401871607713]
本稿では、より小型でコスト効率の良い言語モデルをカスタマイズし、より強力なモデルを利用するための設計と最適化を行う新しいフレームワークであるWeakfor-Strong Harnessing (W4S)を提案する。 W4Sはマルチターンマルコフ決定プロセスとして設計を定式化し、エージェントワークフロー最適化のための強化学習を導入する。経験的な結果から、GPU時間でトレーニングされた7Bメタエージェントは、11ベンチマークで2.9%、最強のベースラインを2.9%上回るW4Sの優位性を示している。
論文参考訳（メタデータ） (2025-04-07T07:27:31Z)
Learning Autonomous Code Integration for Math Language Models [30.057052324461534]
本稿では,メタ認知ツール利用決定と進化能力の間の自己強化サイクルを構築するために,構造化探索(E-step)と非政治最適化(M-step)を併用する新しいフレームワークを提案する。当社の7Bモデルは、MATH500では11%、AIMEでは9.4%、o1のようなCoTでは9.4%改善しています。
論文参考訳（メタデータ） (2025-02-02T06:32:23Z)
AdaWM: Adaptive World Model based Planning for Autonomous Driving [34.57859869929471]
世界モデルに基づく強化学習(RL)が自律運転の有望なアプローチとして登場した。プレトレイン-ファイントゥンパラダイムは、オンラインRLが事前訓練されたモデルによってパフォーマンスされ、オフラインで学習されるポリシーで使用されることが多い。本稿では,アダプティブ・ワールド・モデルに基づく計画手法であるAdaWMを紹介する。(a)ミスマッチを定量化し,微調整戦略を通知するミスマッチ識別と,(b)ポリシーやモデルを必要に応じて選択的に更新するアライメント駆動微調整である。
論文参考訳（メタデータ） (2025-01-22T18:34:51Z)
Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.86370957353911]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。 CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文参考訳（メタデータ） (2025-01-19T16:53:26Z)
On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文参考訳（メタデータ） (2024-10-08T03:12:57Z)
Module-wise Adaptive Adversarial Training for End-to-end Autonomous Driving [33.90341803416033]
エンドツーエンドの自律運転モデルのためのモジュールワイド適応適応適応訓練(MA2T)を提案する。本稿では,異なるモジュールが入力される前にノイズを注入するモジュールワイドノイズインジェクションについて紹介する。また,各モジュールの損失重みを適応的に学習・調整するために,蓄積した重み変化を組み込んだ動的重み蓄積適応を導入する。
論文参考訳（メタデータ） (2024-09-11T15:00:18Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文参考訳（メタデータ） (2024-04-22T17:43:23Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。 LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文参考訳（メタデータ） (2023-10-01T00:52:24Z)
Large Language Models Are Also Good Prototypical Commonsense Reasoners [11.108562540123387]
従来の微調整アプローチはリソース集約的であり、モデルの一般化能力を損なう可能性がある。我々は、調整されたタスクのための大規模モデルの出力からインスピレーションを受け、半自動で新しいプロンプトのセットを開発した。より優れた設計のプロンプトによって、ProtoQAのリーダーボードで新しい最先端(SOTA)を達成することができます。
論文参考訳（メタデータ） (2023-09-22T20:07:24Z)
Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance [35.38549845444575]
Chain-of-Thought Hubは、大規模な言語モデルの多段階推論機能に関するオープンソースの評価スイートである。提案するChain-of-Thought Hubは,大規模言語モデルの多段階推論機能に関するオープンソース評価スイートである。
論文参考訳（メタデータ） (2023-05-26T23:46:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。