Fugu-MT 論文翻訳(概要): Synthesizing Interpretable Control Policies through Large Language Model Guided Search

論文の概要: Synthesizing Interpretable Control Policies through Large Language Model Guided Search

arxiv url: http://arxiv.org/abs/2410.05406v1
Date: Mon, 7 Oct 2024 18:12:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 18:57:16.241449
Title: Synthesizing Interpretable Control Policies through Large Language Model Guided Search
Title（参考訳）: 大規模言語モデルガイド検索による解釈可能な制御ポリシーの合成
Authors: Carlo Bosio, Mark W. Mueller,
Abstract要約: Pythonのような標準言語のプログラムとしてコントロールポリシを表現しています。シミュレーションで候補コントローラを評価し,事前学習したLLMを用いてそれらを進化させる。本手法は,カップタスクにおける振り子の振り上げとボールの解釈可能な制御ポリシの合成への応用を通して述べる。
参考スコア（独自算出の注目度）: 7.706225175516503
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The combination of Large Language Models (LLMs), systematic evaluation, and evolutionary algorithms has enabled breakthroughs in combinatorial optimization and scientific discovery. We propose to extend this powerful combination to the control of dynamical systems, generating interpretable control policies capable of complex behaviors. With our novel method, we represent control policies as programs in standard languages like Python. We evaluate candidate controllers in simulation and evolve them using a pre-trained LLM. Unlike conventional learning-based control techniques, which rely on black box neural networks to encode control policies, our approach enhances transparency and interpretability. We still take advantage of the power of large AI models, but leverage it at the policy design phase, ensuring that all system components remain interpretable and easily verifiable at runtime. Additionally, the use of standard programming languages makes it straightforward for humans to finetune or adapt the controllers based on their expertise and intuition. We illustrate our method through its application to the synthesis of an interpretable control policy for the pendulum swing-up and the ball in cup tasks. We make the code available at https://github.com/muellerlab/synthesizing_interpretable_control_policies.git
Abstract（参考訳）: 大規模言語モデル(LLM)、体系的評価、進化的アルゴリズムの組み合わせは、組合せ最適化と科学的発見のブレークスルーを可能にした。本稿では,この強力な組み合わせを動的システムの制御に拡張し,複雑な動作が可能な解釈可能な制御ポリシーを生成することを提案する。提案手法では,Python などの標準言語における制御ポリシをプログラムとして表現する。シミュレーションで候補コントローラを評価し,事前学習したLLMを用いてそれらを進化させる。ブラックボックスニューラルネットワークを使って制御ポリシーを符号化する従来の学習ベースの制御技術とは異なり、我々のアプローチは透明性と解釈可能性を高める。私たちは依然として、大規模なAIモデルのパワーを活用していますが、ポリシー設計フェーズでそれを活用し、すべてのシステムコンポーネントが実行時に解釈可能で容易に検証可能であることを保証しています。さらに、標準プログラミング言語を使用することで、人間が専門知識と直感に基づいてコントローラーを微調整したり、適応したりすることができる。本手法は,カップタスクにおける振り子の振り上げとボールの解釈可能な制御ポリシの合成への応用を通して述べる。コードはhttps://github.com/muellerlab/synthesizing_interpretable_control_policies.gitで公開しています。

関連論文リスト

Code Evolution for Control: Synthesizing Policies via LLM-Driven Evolutionary Search [15.216159860533397]
進化的探索は、解釈可能な制御ポリシーを実行可能なコード形式で効果的に合成できることを示す。 EvoToolkitは、進化的計算とカスタマイズ可能なフィットネス評価をシームレスに統合するフレームワークである。この研究は、自律システムにおける信頼できる制御ポリシーのための基礎モデルと進化計算を組み合わせる可能性を強調している。
論文参考訳（メタデータ） (2026-01-11T10:21:22Z)
Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文参考訳（メタデータ） (2025-12-24T07:42:10Z)
Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies [36.44665658496622]
この研究は、MLES(Multimodal Large Language Model-assisted Evolutionary Search)と呼ばれるプログラム制御ポリシー発見のための新しいアプローチを導入する。 MLESはマルチモーダルな大言語モデルをプログラム型ポリシー生成器として利用し、それらを進化的検索と組み合わせてポリシー生成を自動化する。実験の結果,MLESは2つの標準制御タスクでPPOに匹敵する性能を達成できた。
論文参考訳（メタデータ） (2025-08-07T14:24:03Z)
CIE: Controlling Language Model Text Generations Using Continuous Signals [21.78085834915499]
本稿では,連続信号によるLMの正確な応答長の制御方法を示す。本手法は,制御信号を離散信号として表現する文脈内学習法や微調整法よりも応答長制御をより確実に行う。
論文参考訳（メタデータ） (2025-05-19T17:59:58Z)
Aligning Large Language Models with Representation Editing: A Control Perspective [38.71496554018039]
人間の目的に合わせて微調整された大規模言語モデル(LLM)は、現実世界のアプリケーションには不可欠である。プロンプトやガイドデコードといったテスト時のアライメント技術は、基礎となるモデルを変更しない。表現編集によるLLMの整合性を提案する。
論文参考訳（メタデータ） (2024-06-10T01:21:31Z)
Policy Learning with a Language Bottleneck [65.99843627646018]
本稿では,AIエージェントが言語規則を生成可能なフレームワークであるPLLB(Language Bottleneck)について紹介する。 PLLBBは言語モデルによってガイドされる*ルール生成*ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ*アップデート*ステップとを代替する。 PLLBエージェントは、より解釈可能で一般化可能な振る舞いを学べるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文参考訳（メタデータ） (2024-05-07T08:40:21Z)
Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文参考訳（メタデータ） (2024-03-21T11:54:45Z)
Dimensionless Policies based on the Buckingham $\pi$ Theorem: Is This a Good Way to Generalize Numerical Results? [66.52698983694613]
本稿では,バッキンガムの$pi$定理を,物理系の制御ポリシを汎用的な知識形式にエンコードするツールとして活用する。本研究では,(1) パラメータの削減,(2) 特定のシステムに対して数値的に生成された制御ポリシを,入力変数と出力変数を適切にスケーリングすることにより,次元的に類似したシステムのサブセットに正確に転送可能であることを示す。より複雑な高次元問題に対するポリシーを一般化するために、このアプローチがいかに実用的であるかは、まだわからないが、初期の結果は、それがaであることを示している。
論文参考訳（メタデータ） (2023-07-29T00:51:26Z)
Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文参考訳（メタデータ） (2023-07-10T17:32:13Z)
ControlVAE: Model-Based Learning of Generative Controllers for Physics-Based Characters [28.446959320429656]
可変オートエンコーダ(VAE)に基づく生成動作制御ポリシーを学習するためのモデルベースのフレームワークであるControlVAEを紹介する。我々のフレームワークは、多種多様な非組織的な動作シーケンスから、リッチで柔軟なスキル表現と、スキル条件付き生成制御ポリシーを学習することができる。シミュレーション文字のリアルかつインタラクティブな制御を可能にする多種多様なタスクセットを用いた制御VAEの有効性を実証する。
論文参考訳（メタデータ） (2022-10-12T10:11:36Z)
Human-AI Shared Control via Frequency-based Policy Dissection [34.0399894373716]
人間-AI共有制御は、複雑な環境で制御タスクを達成するために、人間がAIと対話し、協力することを可能にする。従来の強化学習(RL)手法は、人間の制御可能なポリシーを達成するために目標条件付き設計を試みる。我々は、学習したニューラルコントローラの中間表現とエージェント動作の運動特性を整合させる、TextitPolicy Dissectionと呼ばれるシンプルで効果的な周波数ベースのアプローチを開発した。
論文参考訳（メタデータ） (2022-05-31T23:57:55Z)
Using Simulation Optimization to Improve Zero-shot Policy Transfer of Quadrotors [0.14999444543328289]
実世界データを用いて微調整を行うことなく,シミュレーションで完全に強化学習を施した低レベルの制御ポリシを訓練し,四足歩行ロボットに展開することが可能であることを示す。私たちのニューラルネットワークベースのポリシーは、オンボードセンサーデータのみを使用し、組み込みドローンハードウェアで完全に動作します。
論文参考訳（メタデータ） (2022-01-04T22:32:05Z)
Policy Search for Model Predictive Control with Application to Agile Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文参考訳（メタデータ） (2021-12-07T17:39:24Z)
Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。 2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文参考訳（メタデータ） (2021-03-26T13:58:23Z)
Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。 NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文参考訳（メタデータ） (2020-12-04T18:59:32Z)
AirCapRL: Autonomous Aerial Human Motion Capture using Deep Reinforcement Learning [38.429105809093116]
自律型空中人体モーションキャプチャ(MoCap)のための深部強化学習(RL)に基づくマルチロボット生成コントローラを提案する。視覚に基づくMoCapに焦点をあて,体ポーズの軌跡を推定し,複数の空飛ぶ車を用いて1人の動く人物を形作る。
論文参考訳（メタデータ） (2020-07-13T12:30:31Z)
PFPN: Continuous Control of Physically Simulated Characters using Particle Filtering Policy Network [0.9137554315375919]
本稿では,粒子に基づく行動政策をガウス政策の代替とみなす枠組みを提案する。本手法が様々なモーションキャプチャー模倣タスクに適用可能であることを実証する。
論文参考訳（メタデータ） (2020-03-16T00:35:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。