論文の概要: From AI Assistant to AI Scientist: Autonomous Discovery of LLM-RL Algorithms with LLM Agents
- arxiv url: http://arxiv.org/abs/2603.23951v1
- Date: Wed, 25 Mar 2026 05:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.143528
- Title: From AI Assistant to AI Scientist: Autonomous Discovery of LLM-RL Algorithms with LLM Agents
- Title(参考訳): AIアシスタントからAIサイエンティストへ:LLMエージェントを用いたLLM-RLアルゴリズムの自律的発見
- Authors: Sirui Xia, Yikai Zhang, Aili Chen, Siye Wu, Siyu Yuan, Yanghua Xiao,
- Abstract要約: POISEは、言語モデルのためのポリシー最適化アルゴリズムの自動発見のためのフレームワークである。
PoISEは構造化され、属学的にリンクされたアーカイブリンクの提案、実行可能な実装、標準化された評価、自然言語のリフレクションを維持している。
- 参考スコア(独自算出の注目度): 51.12380889298618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discovering improved policy optimization algorithms for language models remains a costly manual process requiring repeated mechanism-level modification and validation. Unlike simple combinatorial code search, this problem requires searching over algorithmic mechanisms tightly coupled with training dynamics while reusing empirical evidence across iterations. We propose POISE, a closed-loop framework for automated discovery of policy optimization algorithms for language models. POISE maintains a structured, genealogically linked archive linking proposals, executable implementations, standardized evaluations, and natural-language reflections to support evidence-driven iteration. In mathematical reasoning experiments starting from GRPO, POISE evaluates 64 candidate algorithms and discovers improved mechanisms, including analytic-variance scaling and validity masking. The best variant improves weighted Overall from 47.8 to 52.5 (+4.6) and increases AIME25 pass@32 from 26.7% to 43.3%, demonstrating the feasibility of automated policy optimization discovery while supporting interpretable design principles.
- Abstract(参考訳): 言語モデルのための改良されたポリシー最適化アルゴリズムを明らかにすることは、繰り返しメカニズムレベルの修正と検証を必要とするコストのかかる手作業のままである。
単純な組合せコード検索とは違って、この問題は反復にまたがる経験的エビデンスを再利用しながら、トレーニングダイナミクスと密結合したアルゴリズムメカニズムを探索する必要がある。
言語モデルのためのポリシー最適化アルゴリズムの自動発見のためのクローズドループフレームワークPOISEを提案する。
POISEは構造化され、系統的にリンクされたアーカイブリンクの提案、実行可能な実装、標準化された評価、そしてエビデンス駆動のイテレーションをサポートする自然言語のリフレクションを維持している。
GRPOから始まる数学的推論実験において、POISEは64の候補アルゴリズムを評価し、分析分散スケーリングや妥当性マスキングを含む改善されたメカニズムを発見する。
全体的な重み付けは47.8から52.5(+4.6)に改善され、AIME25 pass@32は26.7%から43.3%に増加し、解釈可能な設計原則をサポートしながら自動ポリシー最適化発見の実現可能性を示している。
関連論文リスト
- ContextEvolve: Multi-Agent Context Compression for Systems Code Optimization [8.046059974853858]
本稿では,厳密なパラメータブラインド制約の下でRLレベルの探索効率を実現するマルチエージェントフレームワークであるContextEvolveを紹介する。
ADRSベンチマークでは、ContextEvolveは最先端のベースラインを33.3%上回り、トークン消費を29.0%削減している。
論文 参考訳(メタデータ) (2026-02-01T16:50:07Z) - QiMeng-NeuComBack: Self-Evolving Translation from IR to Assembly Code [52.66657751895655]
大規模言語モデル(LLM)は、ニューラルコンパイルという魅力的な新しいパラダイムを提供する。
本稿では,IR-to-assemblyコンパイル用に設計された新しいベンチマークデータセットであるNeuComBackを紹介する。
LLMの内部的なプロンプト戦略を進化させる自己進化的プロンプト最適化法を提案する。
論文 参考訳(メタデータ) (2025-11-03T03:20:26Z) - Evolution of Optimization Algorithms for Global Placement via Large Language Models [18.373855320220887]
本稿では,グローバル配置のための最適化アルゴリズムを進化させる自動フレームワークを提案する。
まず,大規模言語モデル(LLM)を用いて多種多様な候補アルゴリズムを生成する。
検出された最適化アルゴリズムは、多くのベンチマークで大幅に性能が向上した。
論文 参考訳(メタデータ) (2025-04-18T09:57:14Z) - RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。
AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。
サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-03-25T12:52:38Z) - LLaMEA: A Large Language Model Evolutionary Algorithm for Automatically Generating Metaheuristics [0.023020018305241332]
本稿では,Large Language Model Evolutionary Algorithm (LLaMEA) フレームワークを紹介する。
一連の基準とタスク定義(検索空間)が与えられた後、LLaMEAは反復的にアルゴリズムを生成し、変更し、選択する。
我々は,このフレームワークを用いて,新しいブラックボックスメタヒューリスティック最適化アルゴリズムを自動生成する方法を示す。
論文 参考訳(メタデータ) (2024-05-30T15:10:59Z) - $\mathbf{(N,K)}$-Puzzle: A Cost-Efficient Testbed for Benchmarking
Reinforcement Learning Algorithms in Generative Language Model [50.636423457653066]
我々は24-Puzzleの一般化版を提示する:$(N,K)$-Puzzle。
我々は、アイデンティティポリシー最適化(IPO)やダイレクトポリシー最適化(DPO)といった新しいアプローチとともに、PPO(Proximal Policy Optimization)のような確立されたRLアルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-11T22:24:14Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。