Fugu-MT 論文翻訳(概要): Can Large Language Models Invent Algorithms to Improve Themselves?: Algorithm Discovery for Recursive Self-Improvement through Reinforcement Learning

論文の概要: Can Large Language Models Invent Algorithms to Improve Themselves?: Algorithm Discovery for Recursive Self-Improvement through Reinforcement Learning

arxiv url: http://arxiv.org/abs/2410.15639v5
Date: Tue, 10 Jun 2025 08:35:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:38.951292
Title: Can Large Language Models Invent Algorithms to Improve Themselves?: Algorithm Discovery for Recursive Self-Improvement through Reinforcement Learning
Title（参考訳）: 大規模言語モデルはテーマを改善するアルゴリズムを発明できるか?:強化学習による再帰的自己改善のためのアルゴリズム発見
Authors: Yoichi Ishibashi, Taro Yano, Masafumi Oyamada,
Abstract要約: 自己開発(Self-Developing)は、大規模言語モデルが独自の改善アルゴリズムを自律的に発見し、実装し、洗練することを可能にするフレームワークである。モデルマージ(モデルマージ)により、このフレームワークを実証する。数学的推論のベンチマークでは、自律的に発見されたアルゴリズムは、シードモデルのGSM8kのパフォーマンスを6%改善し、タスク算術のような人間設計のアプローチを4.3%上回った。
参考スコア（独自算出の注目度）: 3.6117068575553595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have achieved remarkable capabilities, yet their improvement methods remain fundamentally constrained by human design. We present Self-Developing, a framework that enables LLMs to autonomously discover, implement, and refine their own improvement algorithms. Our approach employs an iterative cycle where a seed model generates algorithmic candidates as executable code, evaluates their effectiveness, and uses Direct Preference Optimization to recursively improve increasingly sophisticated improvement strategies. We demonstrate this framework through model merging, a practical technique for combining specialized models. Self-Developing successfully discovered novel merging algorithms that outperform existing human-designed algorithms. On mathematical reasoning benchmarks, the autonomously discovered algorithms improve the seed model's GSM8k performance by 6\% and exceed human-designed approaches like Task Arithmetic by 4.3\%. Remarkably, these algorithms exhibit strong generalization, achieving 7.4\% gains on out-of-domain models without re-optimization. Our findings demonstrate that LLMs can transcend their training to invent genuinely novel optimization techniques. This capability represents a crucial step toward a new era where LLMs not only solve problems but autonomously develop the methodologies for their own advancement.
Abstract（参考訳）: 大きな言語モデル(LLM)は目覚ましい能力を達成したが、その改善手法は基本的に人間設計によって制約されている。我々は,自己開発(Self-Developing)という,LLMが自己発見,実装,改善を行うためのフレームワークを提案する。提案手法では,アルゴリズム的候補を実行可能コードとして生成し,その効率性を評価し,改良戦略を再帰的に改善するために直接選好最適化を用いる。モデルマージ(モデルマージ)により、このフレームワークを実証する。自己開発は、既存の人間設計アルゴリズムより優れた新しいマージアルゴリズムを発見した。数学的推論ベンチマークでは、自律的に発見されたアルゴリズムは、シードモデルのGSM8k性能を6倍に改善し、タスク算術のような人間設計のアプローチを4.3倍に越えている。注目すべきは、これらのアルゴリズムは強い一般化を示し、再最適化せずにドメイン外のモデルに対して7.4\%のゲインを達成することである。以上の結果から, LLMは, 真に新しい最適化手法を考案するために, トレーニングを超越できることが示唆された。この能力は、LSMが問題を解決するだけでなく、自己の進歩のための方法論を自律的に開発する新しい時代への重要な一歩である。

関連論文リスト

Evolution of Optimization Algorithms for Global Placement via Large Language Models [18.373855320220887]
本稿では,グローバル配置のための最適化アルゴリズムを進化させる自動フレームワークを提案する。まず,大規模言語モデル(LLM)を用いて多種多様な候補アルゴリズムを生成する。検出された最適化アルゴリズムは、多くのベンチマークで大幅に性能が向上した。
論文参考訳（メタデータ） (2025-04-18T09:57:14Z)
Algorithm Discovery With LLMs: Evolutionary Search Meets Reinforcement Learning [12.037588566211348]
本稿では,強化学習(RL)ファインチューニングによる大規模言語モデル(LLM)の改良を提案する。実験により,RLと進化探索を組み合わせることにより,改良アルゴリズムの効率が向上することが示された。
論文参考訳（メタデータ） (2025-04-07T14:14:15Z)
LLM-Guided Evolution: An Autonomous Model Optimization for Object Detection [0.0]
機械学習では、ニューラルネットワークサーチ(NAS)はモデル設計のドメイン知識と、有望なパフォーマンスを達成するために大量の試行錯誤を必要とする。 Large Language Model (LLM)-Guided Evolution (GE)フレームワークは、CIFARデータ上の画像分類アルゴリズムのモデルソースコードを直接修正するためにLLMを組み込むことによって、このアプローチを変革した。 LLM-GEは平均平均精度を92.5%から94.5%に向上させるなど,大幅な性能向上を図った。
論文参考訳（メタデータ） (2025-04-03T05:06:06Z)
RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。 AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文参考訳（メタデータ） (2025-03-25T12:52:38Z)
Combinatorial Optimization for All: Using LLMs to Aid Non-Experts in Improving Optimization Algorithms [0.9668407688201361]
大規模言語モデル(LLM)は最適化アルゴリズムのためのコード生成において顕著な可能性を示している。本稿では,アルゴリズムをスクラッチから作成するのではなく,専門知識を必要とせずに既存のものを改善する方法について検討する。
論文参考訳（メタデータ） (2025-03-14T00:26:00Z)
From Understanding to Excelling: Template-Free Algorithm Design through Structural-Functional Co-Evolution [39.42526347710991]
大規模言語モデル(LLM)はアルゴリズム生成と最適化の自動化を大幅に加速した。 LLMに基づくエンドツーエンドのアルゴリズム生成と最適化フレームワークを提案する。我々のアプローチは、LLMの深い意味理解を利用して、自然言語の要求や人間による論文をコードソリューションに変換する。
論文参考訳（メタデータ） (2025-03-13T08:26:18Z)
MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文参考訳（メタデータ） (2025-02-20T12:28:23Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文参考訳（メタデータ） (2024-10-08T03:12:57Z)
On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。 LLMは素晴らしい経験的成功を収めた。提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文参考訳（メタデータ） (2024-07-20T07:39:07Z)
Large Language Models as Surrogate Models in Evolutionary Algorithms: A Preliminary Study [5.6787965501364335]
サロゲートアシスト選択は、高価な最適化問題を解決する進化アルゴリズムの中核的なステップである。伝統的に、これは従来の機械学習手法に依存しており、過去の評価を利用して新しいソリューションの性能を予測する。本研究では,LLM推論機能に基づいた新しいサロゲートモデルを提案する。
論文参考訳（メタデータ） (2024-06-15T15:54:00Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
LLaMEA: A Large Language Model Evolutionary Algorithm for Automatically Generating Metaheuristics [0.023020018305241332]
本稿では,Large Language Model Evolutionary Algorithm (LLaMEA) フレームワークを紹介する。一連の基準とタスク定義(検索空間)が与えられた後、LLaMEAは反復的にアルゴリズムを生成し、変更し、選択する。我々は,このフレームワークを用いて,新しいブラックボックスメタヒューリスティック最適化アルゴリズムを自動生成する方法を示す。
論文参考訳（メタデータ） (2024-05-30T15:10:59Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Designing Network Algorithms via Large Language Models [11.055072300500104]
我々は,大規模言語モデル(LLM)の生成能力を活用することで,ネットワークアルゴリズムを自律的に設計する最初のフレームワークであるNADを紹介する。我々は,NADがブロードバンド,衛星,4G,5Gを含む多様なネットワーク環境において,元のアルゴリズムを一貫して上回る新しいABRアルゴリズムを生成することを実証した。
論文参考訳（メタデータ） (2024-04-02T03:43:55Z)
Evolutionary Optimization of Model Merging Recipes [21.41838972039297]
本稿では、強力な基礎モデルの作成を自動化するための進化的アルゴリズムの新たな応用について述べる。本稿では,様々なオープンソースモデルの効果的な組み合わせを自動的に発見することで,制限を克服する進化的アプローチを提案する。この研究は、新しい最先端のモデルをオープンソースコミュニティに提供し、また、自動化されたモデル構成のための新しいパラダイムも導入している。
論文参考訳（メタデータ） (2024-03-19T22:56:53Z)
Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。モデルパラメータ学習における2つの重要な要素を同定する。グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文参考訳（メタデータ） (2024-02-27T15:05:32Z)
Algorithm Evolution Using Large Language Model [18.03090066194074]
大規模言語モデル(AEL)を用いた進化的アルゴリズムを提案する。 AELはモデルトレーニングなしでアルゴリズムレベルの進化を行う。人間の努力とドメイン知識の要求は大幅に削減できる。
論文参考訳（メタデータ） (2023-11-26T09:38:44Z)
STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。 Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文参考訳（メタデータ） (2023-10-14T16:42:02Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。 Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文参考訳（メタデータ） (2022-09-23T18:36:01Z)
Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文参考訳（メタデータ） (2021-01-08T18:55:07Z)
Efficient Model-Based Reinforcement Learning through Optimistic Policy Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文参考訳（メタデータ） (2020-06-15T18:37:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。