論文の概要: Addressing Long-Horizon Tasks by Integrating Program Synthesis and State
Machines
- arxiv url: http://arxiv.org/abs/2311.15960v1
- Date: Mon, 27 Nov 2023 16:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:29:07.826324
- Title: Addressing Long-Horizon Tasks by Integrating Program Synthesis and State
Machines
- Title(参考訳): プログラム合成と状態機械の統合によるロングホリゾン課題の解決
- Authors: Yu-An Lin, Chen-Tao Lee, Guan-Ting Liu, Pu-Jen Cheng, Shao-Hua Sun
- Abstract要約: 深層強化学習は様々な領域で優れているが、一般化性と相互運用性に欠ける。
本研究は,プログラム・マシン・ポリシー(POMP)を提案する。
POMPはプログラム的なRLとステートマシンポリシーの利点を橋渡しし、複雑な振る舞いの表現と長期的なタスクのアドレスを可能にします。
- 参考スコア(独自算出の注目度): 7.159109885159399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning excels in various domains but lacks
generalizability and interoperability. Programmatic RL methods (Trivedi et al.,
2021; Liu et al., 2023) reformulate solving RL tasks as synthesizing
interpretable programs that can be executed in the environments. Despite
encouraging results, these methods are limited to short-horizon tasks. On the
other hand, representing RL policies using state machines (Inala et al., 2020)
can inductively generalize to long-horizon tasks; however, it struggles to
scale up to acquire diverse and complex behaviors. This work proposes Program
Machine Policies (POMPs), which bridge the advantages of programmatic RL and
state machine policies, allowing for the representation of complex behaviors
and the address of long-term tasks. Specifically, we introduce a method that
can retrieve a set of effective, diverse, compatible programs. Then, we use
these programs as modes of a state machine and learn a transition function to
transition among mode programs, allowing for capturing long-horizon repetitive
behaviors. Our proposed framework outperforms programmatic RL and deep RL
baselines on various tasks and demonstrates the ability to generalize to even
longer horizons without any fine-tuning inductively. Ablation studies justify
the effectiveness of our proposed search algorithm for retrieving a set of
programs as modes.
- Abstract(参考訳): 深層強化学習は様々な領域で優れているが、一般化性と相互運用性に欠ける。
プログラム的RL法(Trivedi et al., 2021; Liu et al., 2023)は、RLタスクを環境下で実行可能な解釈可能なプログラムの合成として再構成する。
奨励的な結果にもかかわらず、これらの手法は短期的なタスクに限られる。
一方、国家機械(イナラなど)を用いたRL政策の表現は、長期的タスクに誘導的に一般化することができるが、多様で複雑な行動を得るためにスケールアップに苦労している。
本研究は,プログラム型rlとステートマシンポリシの利点を橋渡しし,複雑な動作の表現と長期的なタスクの対応を可能にするプログラムマシンポリシ(pomp)を提案する。
具体的には,効率良く多様な互換性のあるプログラム群を検索する手法を提案する。
そして、これらのプログラムを状態マシンのモードとして使用し、モードプログラム間の遷移関数を学習し、長い水平反復動作をキャプチャする。
提案手法は,プログラム的なRLと深いRLのベースラインを様々なタスクで上回り,微調整を伴わずにより長い水平線に一般化できることを示す。
アブレーション研究は,一連のプログラムをモードとして検索するための探索アルゴリズムの有効性を正当化する。
関連論文リスト
- Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Deep reinforcement learning for machine scheduling: Methodology, the
state-of-the-art, and future directions [2.4541568670428915]
マシンスケジューリングは、製造ルールとジョブ仕様に準拠しながら、マシンへのジョブ割り当てを最適化することを目的としている。
人工知能の重要な構成要素であるDeep Reinforcement Learning (DRL)は、ゲームやロボティクスなど、さまざまな分野において有望であることを示している。
本稿では、DRLに基づくアプローチの総合的なレビューと比較を行い、その方法論、応用、利点、限界を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T22:45:09Z) - $\mathcal{B}$-Coder: Value-Based Deep Reinforcement Learning for Program Synthesis [39.742755916373284]
プログラム合成は、問題仕様から正確で実行可能なプログラムを作成することを目的としている。
最近の研究は、大規模言語モデル(LLM)とともに強化学習(RL)の力を活用している。
我々の研究は価値ベースのアプローチの実現可能性を探究し、$mathcalB$-Coderの開発につながります。
論文 参考訳(メタデータ) (2023-10-04T21:40:36Z) - Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。
提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。
Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-01-30T14:50:46Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Deep Reinforcement Learning with Adjustments [10.244120641608447]
制御とRLアルゴリズムをブリッジできる連続行動空間のための新しいQ-ラーニングアルゴリズムを提案する。
提案手法は,長期的目標を達成するための複雑なポリシを学習できると同時に,短期的な要件に対応するための調整も容易である。
論文 参考訳(メタデータ) (2021-09-28T03:35:09Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。