論文の概要: POLCA: Stochastic Generative Optimization with LLM
- arxiv url: http://arxiv.org/abs/2603.14769v1
- Date: Mon, 16 Mar 2026 03:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.019625
- Title: POLCA: Stochastic Generative Optimization with LLM
- Title(参考訳): POLCA: LLMによる確率的生成最適化
- Authors: Xuanfei Ren, Allen Nie, Tengyang Xie, Ching-An Cheng,
- Abstract要約: 局所文脈を用いた優先順位付け最適化(POLCA)を導入する。
POLCAは、最適化におけるパラメータ性を扱うために設計されたスケーラブルなフレームワークである。
我々は,POLCAが頑健,サンプル,時間効率の両立を実証した。
- 参考スコア(独自算出の注目度): 26.342554900977003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing complex systems, ranging from LLM prompts to multi-turn agents, traditionally requires labor-intensive manual iteration. We formalize this challenge as a stochastic generative optimization problem where a generative language model acts as the optimizer, guided by numerical rewards and text feedback to discover the best system. We introduce Prioritized Optimization with Local Contextual Aggregation (POLCA), a scalable framework designed to handle stochasticity in optimization -- such as noisy feedback, sampling minibatches, and stochastic system behaviors -- while effectively managing the unconstrained expansion of solution space. POLCA maintains a priority queue to manage the exploration-exploitation tradeoff, systematically tracking candidate solutions and their evaluation histories. To enhance efficiency, we integrate an $\varepsilon$-Net mechanism to maintain parameter diversity and an LLM Summarizer to perform meta-learning across historical trials. We theoretically prove that POLCA converges to near-optimal candidate solutions under stochasticity. We evaluate our framework on diverse benchmarks, including $τ$-bench, HotpotQA (agent optimization), VeriBench (code translation) and KernelBench (CUDA kernel generation). Experimental results demonstrate that POLCA achieves robust, sample and time-efficient performance, consistently outperforming state-of-the-art algorithms in both deterministic and stochastic problems. The codebase for this work is publicly available at https://github.com/rlx-lab/POLCA.
- Abstract(参考訳): LLMプロンプトからマルチターンエージェントまで、複雑なシステムを最適化するには、伝統的に労働集約的な手動イテレーションが必要である。
我々は、この課題を、生成言語モデルが最適なシステムを見つけるための数値報酬とテキストフィードバックによって導かれる最適化として機能する確率的生成最適化問題として定式化する。
POLCA(Local Contextual Aggregation)は,雑音フィードバックやミニバッチのサンプリング,確率的システム動作など,最適化の確率性を扱うためのスケーラブルなフレームワークである。
POLCAは、探索と探索のトレードオフを管理し、候補ソリューションとその評価履歴を体系的に追跡する優先順位待ち行列を維持している。
効率を向上させるため,パラメータの多様性を維持するために$\varepsilon$-Net機構と,過去のトライアルを通じてメタ学習を行うLLM Summarizerを統合した。
理論的には、POLCAは確率性の下でほぼ最適候補解に収束する。
我々は、$τ$-bench、HotpotQA(エージェント最適化)、VeriBench(コード翻訳)、KernelBench(CUDAカーネル生成)など、様々なベンチマークでフレームワークを評価した。
実験結果から, POLCAは頑健, サンプル, 時間効率に優れ, 決定論的, 確率的両問題において, 常に最先端のアルゴリズムより優れることがわかった。
この作業のコードベースはhttps://github.com/rlx-lab/POLCAで公開されている。
関連論文リスト
- TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization [97.18886232580131]
大規模言語モデルは、ツール統合による複雑なタスクにおいて強力な推論能力を示している。
そこで我々はターンレベルグループサンプリングを行う軽量RLアルゴリズムであるTurn-Level GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-23T06:21:33Z) - SOCRATES: Simulation Optimization with Correlated Replicas and Adaptive Trajectory Evaluations [25.18297372152296]
SOCRATESは、調整されたSOアルゴリズムの設計を自動化する新しい2段階のプロシージャである。
実システムのデジタルレプリカのアンサンブルは、ベースラインSOアルゴリズムのセットを評価するテストベッドとして使用される。
LLMはメタ最適化器として機能し、これらのアルゴリズムのパフォーマンストラジェクトリを分析して、最終的なハイブリッド最適化スケジュールを反復的に修正し構成する。
論文 参考訳(メタデータ) (2025-11-01T19:57:38Z) - Stochastic Optimal Control via Measure Relaxations [5.786721045975334]
我々は,システムの最適制御問題を,占領対策に対する凸問題として論じる。
提案手法は,合成シナリオと実世界のシナリオのセットで実証する。
論文 参考訳(メタデータ) (2025-07-26T07:18:16Z) - OPT-BENCH: Evaluating LLM Agent on Large-Scale Search Spaces Optimization Problems [19.586884180343038]
OPT-BENCHは、大規模検索空間最適化問題において、LLM(Large Language Models)を評価するために設計されたベンチマークである。
OPT-Agentは、歴史的フィードバックを通じてソリューションの生成、検証、反復的に改善することで、複雑な問題に取り組む際の人間の推論をエミュレートする。
論文 参考訳(メタデータ) (2025-06-12T14:46:41Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Indirect Query Bayesian Optimization with Integrated Feedback [17.66813850517961]
我々は,未知関数の条件付き期待値$f$を最適化することで,統合されたフィードバックが与えられるような,ベイズ最適化の新たなクラスを開発する。
目的は、条件分布によって変換された空間を適応的にクエリし、観察することで、$f$のグローバルな最適値を見つけることである。
これは、プライバシ、ハードウェア、計算上の制約による直接的なフィードバックにアクセスできない現実世界のアプリケーションによって動機付けられている。
論文 参考訳(メタデータ) (2024-12-18T07:20:33Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。