論文の概要: Combining Large Language Models and Gradient-Free Optimization for Automatic Control Policy Synthesis
- arxiv url: http://arxiv.org/abs/2510.00373v1
- Date: Wed, 01 Oct 2025 00:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.302605
- Title: Combining Large Language Models and Gradient-Free Optimization for Automatic Control Policy Synthesis
- Title(参考訳): 自動制御ポリシ合成のための大規模言語モデルとグラディエントフリー最適化の組み合わせ
- Authors: Carlo Bosio, Matteo Guarrera, Alberto Sangiovanni-Vincentelli, Mark W. Mueller,
- Abstract要約: 大型言語モデル (LLM) は、シンボル制御ポリシーのジェネレータとして期待されている。
パラメータ最適化から構造合成を分離するハイブリッド手法を提案する。
シンボルプログラム合成と数値最適化を組み合わせることで、解釈可能ながら高い性能のポリシーが得られることを示す。
- 参考スコア(独自算出の注目度): 2.8593976574111264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language models (LLMs) have shown promise as generators of symbolic control policies, producing interpretable program-like representations through iterative search. However, these models are not capable of separating the functional structure of a policy from the numerical values it is parametrized by, thus making the search process slow and inefficient. We propose a hybrid approach that decouples structural synthesis from parameter optimization by introducing an additional optimization layer for local parameter search. In our method, the numerical parameters of LLM-generated programs are extracted and optimized numerically to maximize task performance. With this integration, an LLM iterates over the functional structure of programs, while a separate optimization loop is used to find a locally optimal set of parameters accompanying candidate programs. We evaluate our method on a set of control tasks, showing that it achieves higher returns and improved sample efficiency compared to purely LLM-guided search. We show that combining symbolic program synthesis with numerical optimization yields interpretable yet high-performing policies, bridging the gap between language-model-guided design and classical control tuning. Our code is available at https://sites.google.com/berkeley.edu/colmo.
- Abstract(参考訳): 大規模言語モデル (LLM) は、記号制御ポリシーの生成元として公約を示し、反復探索によって解釈可能なプログラムのような表現を生成する。
しかし、これらのモデルは、パラメータ化される数値からポリシーの機能的構造を分離することができないため、探索プロセスは遅く非効率になる。
本稿では,局所パラメータ探索のための最適化層を導入することで,パラメータ最適化から構造合成を分離するハイブリッド手法を提案する。
本研究では,LLM生成プログラムの数値パラメータを抽出し,タスク性能を最大化するために最適化する。
この統合により、LLMはプログラムの関数構造を反復し、別の最適化ループは、候補プログラムに付随するパラメータの局所的最適セットを見つけるために使用される。
提案手法を制御タスクのセットで評価し,LLM誘導探索と比較して高いリターンとサンプル効率の向上を図った。
シンボルプログラム合成と数値最適化を組み合わせることで、言語モデル誘導設計と古典的制御チューニングのギャップを埋める、解釈可能かつ高い性能のポリシーが得られることを示す。
私たちのコードはhttps://sites.google.com/berkeley.edu/colmo.comで公開されています。
関連論文リスト
- Optimizing Prompt Sequences using Monte Carlo Tree Search for LLM-Based Optimization [20.44067161623662]
大規模言語モデル(LLM)は、コード生成と構造化推論において顕著な能力を示した。
本稿では,モンテカルロ木探索によって導かれる逐次決定過程として,選択を高速化するニューラルシンボリックフレームワークを提案する。
本手法は,コード生成品質の向上を目的として,複数ステップのプロンプトシーケンスを探索・精査する。
論文 参考訳(メタデータ) (2025-08-08T04:01:24Z) - Compiler Optimization via LLM Reasoning for Efficient Model Serving [7.257845254223727]
本稿では,コンパイルフレームワーク(REASONING COMPILER)を導入し,最適化を逐次的かつコンテキスト対応な意思決定プロセスとして定式化する。
主要なニューラルネットワークよりもはるかに少ないサンプルで、相当なスピードアップを実現しています。
論文 参考訳(メタデータ) (2025-06-02T07:02:46Z) - Optuna vs Code Llama: Are LLMs a New Paradigm for Hyperparameter Tuning? [45.58422897857411]
この研究は、LoRAを用いてパラメータ効率の良いCode Llamaを微調整することで、ハイパーパラメータ最適化のための大規模言語モデル(LLM)の使用について検討する。
提案手法は,計算オーバーヘッドを大幅に削減しつつ,競合的あるいは優れたRoot Mean Square Error(RMSE)を実現する。
その結果,LLMに基づく最適化によって,木構造型パーゼンエミュレータ (TPE) のようなベイズ的手法が確立されただけでなく,知覚品質と低レイテンシ処理を必要とする実世界のアプリケーションへのチューニングが高速化された。
論文 参考訳(メタデータ) (2025-04-08T13:15:47Z) - Training of Scaffolded Language Models with Language Supervision: A Survey [62.59629932720519]
本調査は,戦後のLM周辺における新規構造物の設計と最適化に関する文献を整理した。
本稿では,この階層構造を足場型LMと呼び,ツールを用いた多段階プロセスに統合されたLMに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-21T18:06:25Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。