論文の概要: Program Machine Policy: Addressing Long-Horizon Tasks by Integrating
Program Synthesis and State Machines
- arxiv url: http://arxiv.org/abs/2311.15960v2
- Date: Fri, 9 Feb 2024 02:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 20:09:11.778569
- Title: Program Machine Policy: Addressing Long-Horizon Tasks by Integrating
Program Synthesis and State Machines
- Title(参考訳): プログラムマシンポリシー:プログラム合成とステートマシンの統合による長時間ホリゾンタスクの対処
- Authors: Yu-An Lin, Chen-Tao Lee, Guan-Ting Liu, Pu-Jen Cheng, Shao-Hua Sun
- Abstract要約: プログラムマシンポリシー(POMP)は、プログラムRLとステートマシンポリシーの利点を橋渡しする。
そこで本研究では,効果的で多様で互換性のあるプログラムの集合を検索する手法を提案する。
提案するフレームワークは,プログラム的RLと深いRLのベースラインを様々なタスクで上回る。
- 参考スコア(独自算出の注目度): 7.159109885159399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (deep RL) excels in various domains but lacks
generalizability and interpretability. On the other hand, programmatic RL
methods (Trivedi et al., 2021; Liu et al., 2023) reformulate RL tasks as
synthesizing interpretable programs that can be executed in the environments.
Despite encouraging results, these methods are limited to short-horizon tasks.
On the other hand, representing RL policies using state machines (Inala et al.,
2020) can inductively generalize to long-horizon tasks; however, it struggles
to scale up to acquire diverse and complex behaviors. This work proposes the
Program Machine Policy (POMP), which bridges the advantages of programmatic RL
and state machine policies, allowing for the representation of complex
behaviors and the address of long-term tasks. Specifically, we introduce a
method that can retrieve a set of effective, diverse, and compatible programs.
Then, we use these programs as modes of a state machine and learn a transition
function to transition among mode programs, allowing for capturing repetitive
behaviors. Our proposed framework outperforms programmatic RL and deep RL
baselines on various tasks and demonstrates the ability to inductively
generalize to even longer horizons without any fine-tuning. Ablation studies
justify the effectiveness of our proposed search algorithm for retrieving a set
of programs as modes.
- Abstract(参考訳): 深層強化学習(deep rl)は様々な領域で優れているが、一般化や解釈性に欠ける。
一方、プログラム的RL法(Trivedi et al., 2021; Liu et al., 2023)は、RLのタスクを環境中で実行可能な解釈可能なプログラムの合成として再構成する。
奨励的な結果にもかかわらず、これらの手法は短期的なタスクに限られる。
一方、国家機械(イナラなど)を用いたRL政策の表現は、長期的タスクに誘導的に一般化することができるが、多様で複雑な行動を得るためにスケールアップに苦労している。
本研究は,プログラムRLと状態マシンポリシーの利点を橋渡しするプログラムマシンポリシー(POMP)を提案する。
具体的には,実効性,多様性,互換性のあるプログラム群を検索する手法を提案する。
次に、これらのプログラムを状態機械のモードとして使用し、モードプログラム間の遷移関数を学習し、反復的な動作をキャプチャする。
提案するフレームワークは,プログラム的RLおよび深部RLベースラインを様々なタスクで上回り,微調整なしでより長い地平線に誘導的に一般化できることを示す。
アブレーション研究は,一連のプログラムをモードとして検索するための探索アルゴリズムの有効性を正当化する。
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Deep reinforcement learning for machine scheduling: Methodology, the
state-of-the-art, and future directions [2.4541568670428915]
マシンスケジューリングは、製造ルールとジョブ仕様に準拠しながら、マシンへのジョブ割り当てを最適化することを目的としている。
人工知能の重要な構成要素であるDeep Reinforcement Learning (DRL)は、ゲームやロボティクスなど、さまざまな分野において有望であることを示している。
本稿では、DRLに基づくアプローチの総合的なレビューと比較を行い、その方法論、応用、利点、限界を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T22:45:09Z) - $\mathcal{B}$-Coder: Value-Based Deep Reinforcement Learning for Program Synthesis [39.742755916373284]
プログラム合成は、問題仕様から正確で実行可能なプログラムを作成することを目的としている。
最近の研究は、大規模言語モデル(LLM)とともに強化学習(RL)の力を活用している。
我々の研究は価値ベースのアプローチの実現可能性を探究し、$mathcalB$-Coderの開発につながります。
論文 参考訳(メタデータ) (2023-10-04T21:40:36Z) - Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。
提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。
Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-01-30T14:50:46Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Deep Reinforcement Learning with Adjustments [10.244120641608447]
制御とRLアルゴリズムをブリッジできる連続行動空間のための新しいQ-ラーニングアルゴリズムを提案する。
提案手法は,長期的目標を達成するための複雑なポリシを学習できると同時に,短期的な要件に対応するための調整も容易である。
論文 参考訳(メタデータ) (2021-09-28T03:35:09Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。