論文の概要: Understanding the Challenges in Iterative Generative Optimization with LLMs
- arxiv url: http://arxiv.org/abs/2603.23994v1
- Date: Wed, 25 Mar 2026 06:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.167195
- Title: Understanding the Challenges in Iterative Generative Optimization with LLMs
- Title(参考訳): LLMによる反復生成最適化の課題
- Authors: Allen Nie, Xavier Daull, Zhiyi Kuang, Abhinav Akkiraju, Anish Chaudhuri, Max Piasevoli, Ryan Rong, YuCheng Yuan, Prerit Choudhary, Shannon Xiao, Rasool Fakoor, Adith Swaminathan, Ching-An Cheng,
- Abstract要約: 学習ループを設定するには、エンジニアが隠れた設計選択をしなければならない、と私たちは主張する。
本稿では,ほとんどの応用に影響を及ぼす3つの要因について検討する。
ドメイン間で学習ループを設定するためのシンプルで普遍的な方法がないことが、生産化と採用の大きなハードルである、と私たちは結論付けています。
- 参考スコア(独自算出の注目度): 19.536425405805957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative optimization uses large language models (LLMs) to iteratively improve artifacts (such as code, workflows or prompts) using execution feedback. It is a promising approach to building self-improving agents, yet in practice remains brittle: despite active research, only 9% of surveyed agents used any automated optimization. We argue that this brittleness arises because, to set up a learning loop, an engineer must make ``hidden'' design choices: What can the optimizer edit and what is the "right" learning evidence to provide at each update? We investigate three factors that affect most applications: the starting artifact, the credit horizon for execution traces, and batching trials and errors into learning evidence. Through case studies in MLAgentBench, Atari, and BigBench Extra Hard, we find that these design decisions can determine whether generative optimization succeeds, yet they are rarely made explicit in prior work. Different starting artifacts determine which solutions are reachable in MLAgentBench, truncated traces can still improve Atari agents, and larger minibatches do not monotonically improve generalization on BBEH. We conclude that the lack of a simple, universal way to set up learning loops across domains is a major hurdle for productionization and adoption. We provide practical guidance for making these choices.
- Abstract(参考訳): 生成最適化は、大規模言語モデル(LLM)を使用して、実行フィードバックを使用してアーティファクト(コード、ワークフロー、プロンプトなど)を反復的に改善する。
これは、自己改善エージェントを構築するための有望なアプローチであるが、実際には不安定なままであり、活発な研究にもかかわらず、調査対象エージェントのわずか9%が自動最適化を使用していない。
この不安定さは、学習ループをセットアップするためには、エンジニアが‘隠れた’設計を選択しなければならないためである、と私たちは主張する。
本稿では,ほとんどのアプリケーションに影響を及ぼす3つの要因について検討する。
MLAgentBench、Atari、BigBench Extra Hardのケーススタディを通して、これらの設計決定は、生成的最適化が成功するかどうかを決定できるが、以前の研究で明示されることはめったにない。
MLAgentBench でどの解が到達可能かは、異なるスタートアーティファクトによって決定されるが、切り離されたトレースは依然として Atari エージェントを改善することができ、より大きなミニバッチは BBEH の一般化を単調に改善しない。
ドメイン間で学習ループを設定するためのシンプルで普遍的な方法が欠如していることが、生産化と採用の大きなハードルである、と結論付けています。
これらの選択を行うための実践的なガイダンスを提供する。
関連論文リスト
- ML-Tool-Bench: Tool-Augmented Planning for ML Tasks [23.54937738755734]
ツール強化機械学習エージェントの評価のためのベンチマークを導入する。
私たちのベンチマークは、インメモリ名のオブジェクト管理を組み込むことで、従来のツール使用の評価を超えています。
我々のアプローチはReActよりも16.2%向上し、すべてのKaggle課題の中央値を取ります。
論文 参考訳(メタデータ) (2025-11-29T23:59:40Z) - Increasing LLM Coding Capabilities through Diverse Synthetic Coding Tasks [41.75017840131367]
大規模言語モデル(LLM)は、コード生成において素晴らしい可能性を示しています。
800k近い命令推論コードテスト四重項を生成するスケーラブルな合成データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-27T10:54:25Z) - Tutoring LLM into a Better CUDA Optimizer [0.0]
我々は、事前定義されたよく知られたタスクのために最適化されたコードを生成する最新の推論モデルの能力に焦点を当てる。
我々の目的は、LLMが単独で行うことのできるコード最適化と並列パターンの種類や、チューリングによって改善できるかどうかを判断することである。
論文 参考訳(メタデータ) (2025-10-19T17:09:15Z) - Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - OPT-BENCH: Evaluating LLM Agent on Large-Scale Search Spaces Optimization Problems [19.586884180343038]
OPT-BENCHは、大規模検索空間最適化問題において、LLM(Large Language Models)を評価するために設計されたベンチマークである。
OPT-Agentは、歴史的フィードバックを通じてソリューションの生成、検証、反復的に改善することで、複雑な問題に取り組む際の人間の推論をエミュレートする。
論文 参考訳(メタデータ) (2025-06-12T14:46:41Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Trace is the Next AutoDiff: Generative Optimization with Rich Feedback, Execution Traces, and LLMs [19.89948665187903]
我々は、コーディングアシスタント、ロボット、コピロなどのAIシステムの設計と更新を自動化することによって動機付けられた最適化問題のクラスについて研究する。
PyTorchのような構文を用いて、ワークフロー最適化問題をOPTOインスタンスに効率的に変換するPython、Traceを提供する。
論文 参考訳(メタデータ) (2024-06-23T21:05:31Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。
各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。
OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文 参考訳(メタデータ) (2023-09-07T00:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。