論文の概要: Code Evolution for Control: Synthesizing Policies via LLM-Driven Evolutionary Search
- arxiv url: http://arxiv.org/abs/2601.06845v1
- Date: Sun, 11 Jan 2026 10:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.026973
- Title: Code Evolution for Control: Synthesizing Policies via LLM-Driven Evolutionary Search
- Title(参考訳): 制御のためのコード進化: LLM駆動進化探索によるポリシーの合成
- Authors: Ping Guo, Chao Li, Yinglan Feng, Chaoning Zhang,
- Abstract要約: 進化的探索は、解釈可能な制御ポリシーを実行可能なコード形式で効果的に合成できることを示す。
EvoToolkitは、進化的計算とカスタマイズ可能なフィットネス評価をシームレスに統合するフレームワークである。
この研究は、自律システムにおける信頼できる制御ポリシーのための基礎モデルと進化計算を組み合わせる可能性を強調している。
- 参考スコア(独自算出の注目度): 15.216159860533397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing effective control policies for autonomous systems remains a fundamental challenge, traditionally addressed through reinforcement learning or manual engineering. While reinforcement learning has achieved remarkable success, it often suffers from high sample complexity, reward shaping difficulties, and produces opaque neural network policies that are hard to interpret or verify. Manual design, on the other hand, requires substantial domain expertise and struggles to scale across diverse tasks. In this work, we demonstrate that LLM-driven evolutionary search can effectively synthesize interpretable control policies in the form of executable code. By treating policy synthesis as a code evolution problem, we harness the LLM's prior knowledge of programming patterns and control heuristics while employing evolutionary search to explore the solution space systematically. We implement our approach using EvoToolkit, a framework that seamlessly integrates LLM-driven evolution with customizable fitness evaluation. Our method iteratively evolves populations of candidate policy programs, evaluating them against task-specific objectives and selecting superior individuals for reproduction. This process yields compact, human-readable control policies that can be directly inspected, modified, and formally verified. This work highlights the potential of combining foundation models with evolutionary computation for synthesizing trustworthy control policies in autonomous systems. Code is available at https://github.com/pgg3/EvoControl.
- Abstract(参考訳): 自律システムのための効果的な制御ポリシーを設計することは、伝統的に強化学習や手動工学を通じて対処される、根本的な課題である。
強化学習は著しく成功したが、しばしば高いサンプルの複雑さ、報酬形成の困難に悩まされ、解釈や検証が難しい不透明なニューラルネットワークポリシーを生成する。
一方、マニュアルデザインはドメインの専門知識を必要とし、多様なタスクにまたがってスケールするのに苦労する。
本研究では,LLMによる進化的探索が,解釈可能な制御ポリシーを実行可能なコード形式で効果的に合成できることを実証する。
政策合成をコード進化問題として扱うことで、LLMのプログラミングパターンと制御ヒューリスティックスに関する以前の知識を活用しながら、進化的探索を用いて解決空間を体系的に探索する。
我々は,LCM駆動型進化とカスタマイズ可能なフィットネス評価をシームレスに統合するフレームワークであるEvoToolkitを用いて,我々のアプローチを実装した。
提案手法は, 候補プログラムの個体群を反復的に進化させ, タスク固有の目的に対して評価し, 再現のために優れた個人を選択する。
このプロセスは、直接検査し、修正し、正式に検証できるコンパクトで可読な制御ポリシーを生成する。
この研究は、自律システムにおける信頼に値する制御ポリシーを合成するための基礎モデルと進化計算を組み合わせる可能性を強調している。
コードはhttps://github.com/pgg3/EvoControl.comで入手できる。
関連論文リスト
- EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning [63.03672166010434]
我々は、進化的、タスクに依存しない、戦略を導いた、実行可能検証可能なデータ合成フレームワークを紹介します。
問題、多様な候補解、検証成果物を共同で合成する。
これは、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する。
論文 参考訳(メタデータ) (2025-10-20T11:56:35Z) - Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies [36.44665658496622]
この研究は、MLES(Multimodal Large Language Model-assisted Evolutionary Search)と呼ばれるプログラム制御ポリシー発見のための新しいアプローチを導入する。
MLESはマルチモーダルな大言語モデルをプログラム型ポリシー生成器として利用し、それらを進化的検索と組み合わせてポリシー生成を自動化する。
実験の結果,MLESは2つの標準制御タスクでPPOに匹敵する性能を達成できた。
論文 参考訳(メタデータ) (2025-08-07T14:24:03Z) - Synthesizing Interpretable Control Policies through Large Language Model Guided Search [7.706225175516503]
Pythonのような標準言語のプログラムとしてコントロールポリシを表現しています。
シミュレーションで候補コントローラを評価し,事前学習したLLMを用いてそれらを進化させる。
本手法は,カップタスクにおける振り子の振り上げとボールの解釈可能な制御ポリシの合成への応用を通して述べる。
論文 参考訳(メタデータ) (2024-10-07T18:12:20Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。
このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。
Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - ControlVAE: Model-Based Learning of Generative Controllers for
Physics-Based Characters [28.446959320429656]
可変オートエンコーダ(VAE)に基づく生成動作制御ポリシーを学習するためのモデルベースのフレームワークであるControlVAEを紹介する。
我々のフレームワークは、多種多様な非組織的な動作シーケンスから、リッチで柔軟なスキル表現と、スキル条件付き生成制御ポリシーを学習することができる。
シミュレーション文字のリアルかつインタラクティブな制御を可能にする多種多様なタスクセットを用いた制御VAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-12T10:11:36Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。