Fugu-MT 論文翻訳(概要): Addressing Long-Horizon Tasks by Integrating Program Synthesis and State Machines

論文の概要: Addressing Long-Horizon Tasks by Integrating Program Synthesis and State Machines

arxiv url: http://arxiv.org/abs/2311.15960v1
Date: Mon, 27 Nov 2023 16:06:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 14:29:07.826324
Title: Addressing Long-Horizon Tasks by Integrating Program Synthesis and State Machines
Title（参考訳）: プログラム合成と状態機械の統合によるロングホリゾン課題の解決
Authors: Yu-An Lin, Chen-Tao Lee, Guan-Ting Liu, Pu-Jen Cheng, Shao-Hua Sun
Abstract要約: 深層強化学習は様々な領域で優れているが、一般化性と相互運用性に欠ける。本研究は,プログラム・マシン・ポリシー(POMP)を提案する。 POMPはプログラム的なRLとステートマシンポリシーの利点を橋渡しし、複雑な振る舞いの表現と長期的なタスクのアドレスを可能にします。
参考スコア（独自算出の注目度）: 7.159109885159399
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep reinforcement learning excels in various domains but lacks generalizability and interoperability. Programmatic RL methods (Trivedi et al., 2021; Liu et al., 2023) reformulate solving RL tasks as synthesizing interpretable programs that can be executed in the environments. Despite encouraging results, these methods are limited to short-horizon tasks. On the other hand, representing RL policies using state machines (Inala et al., 2020) can inductively generalize to long-horizon tasks; however, it struggles to scale up to acquire diverse and complex behaviors. This work proposes Program Machine Policies (POMPs), which bridge the advantages of programmatic RL and state machine policies, allowing for the representation of complex behaviors and the address of long-term tasks. Specifically, we introduce a method that can retrieve a set of effective, diverse, compatible programs. Then, we use these programs as modes of a state machine and learn a transition function to transition among mode programs, allowing for capturing long-horizon repetitive behaviors. Our proposed framework outperforms programmatic RL and deep RL baselines on various tasks and demonstrates the ability to generalize to even longer horizons without any fine-tuning inductively. Ablation studies justify the effectiveness of our proposed search algorithm for retrieving a set of programs as modes.
Abstract（参考訳）: 深層強化学習は様々な領域で優れているが、一般化性と相互運用性に欠ける。プログラム的RL法(Trivedi et al., 2021; Liu et al., 2023)は、RLタスクを環境下で実行可能な解釈可能なプログラムの合成として再構成する。奨励的な結果にもかかわらず、これらの手法は短期的なタスクに限られる。一方、国家機械(イナラなど)を用いたRL政策の表現は、長期的タスクに誘導的に一般化することができるが、多様で複雑な行動を得るためにスケールアップに苦労している。本研究は,プログラム型rlとステートマシンポリシの利点を橋渡しし,複雑な動作の表現と長期的なタスクの対応を可能にするプログラムマシンポリシ(pomp)を提案する。具体的には,効率良く多様な互換性のあるプログラム群を検索する手法を提案する。そして、これらのプログラムを状態マシンのモードとして使用し、モードプログラム間の遷移関数を学習し、長い水平反復動作をキャプチャする。提案手法は,プログラム的なRLと深いRLのベースラインを様々なタスクで上回り,微調整を伴わずにより長い水平線に一般化できることを示す。アブレーション研究は,一連のプログラムをモードとして検索するための探索アルゴリズムの有効性を正当化する。

関連論文リスト

A Comparative Study of OpenMP Scheduling Algorithm Selection Strategies [4.068270792140994]
我々は,OpenMPにおけるスケジューリングアルゴリズムの選択のための学習に基づくアプローチを提案し,評価する。その結果,RL法は高い性能のスケジューリング決定を学習できることがわかった。このアプローチはMPIベースのプログラムにも拡張可能で、並列性の複数のレベルにまたがるスケジューリング決定の最適化を可能にする。
論文参考訳（メタデータ） (2025-07-27T15:10:30Z)
Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks [2.3031174164121127]
本稿では,RLエージェントにインセンティブを与える報酬関数群を提案する。学習過程における報酬関数を動的に更新する適応型報酬生成手法を開発した。様々なRLに基づくロボットタスクの実験結果から,提案手法が様々なRLアルゴリズムと互換性があることが示されている。
論文参考訳（メタデータ） (2024-12-14T18:04:18Z)
Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文参考訳（メタデータ） (2024-10-22T15:59:58Z)
Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。 ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文参考訳（メタデータ） (2024-02-29T15:36:01Z)
Programmatic Reinforcement Learning: Navigating Gridworlds [1.956739480860805]
プログラムRLはポリシーの表現をプログラムとして研究し、制御ループのような高次構造を含むことを意味する。我々の主な貢献は、最適なプログラムポリシーのサイズに上限を設定し、それらのアルゴリズムを構築することである。これらの理論的な結果は,アルゴリズムのプロトタイプ実装によって補完される。
論文参考訳（メタデータ） (2024-02-18T17:02:39Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Deep reinforcement learning for machine scheduling: Methodology, the state-of-the-art, and future directions [2.4541568670428915]
マシンスケジューリングは、製造ルールとジョブ仕様に準拠しながら、マシンへのジョブ割り当てを最適化することを目的としている。人工知能の重要な構成要素であるDeep Reinforcement Learning (DRL)は、ゲームやロボティクスなど、さまざまな分野において有望であることを示している。本稿では、DRLに基づくアプローチの総合的なレビューと比較を行い、その方法論、応用、利点、限界を明らかにする。
論文参考訳（メタデータ） (2023-10-04T22:45:09Z)
$\mathcal{B}$-Coder: Value-Based Deep Reinforcement Learning for Program Synthesis [39.742755916373284]
プログラム合成は、問題仕様から正確で実行可能なプログラムを作成することを目的としている。最近の研究は、大規模言語モデル(LLM)とともに強化学習(RL)の力を活用している。我々の研究は価値ベースのアプローチの実現可能性を探究し、$mathcalB$-Coderの開発につながります。
論文参考訳（メタデータ） (2023-10-04T21:40:36Z)
Hierarchical Programmatic Reinforcement Learning via Learning to Compose Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。 Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文参考訳（メタデータ） (2023-01-30T14:50:46Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Deep Reinforcement Learning with Adjustments [10.244120641608447]
制御とRLアルゴリズムをブリッジできる連続行動空間のための新しいQ-ラーニングアルゴリズムを提案する。提案手法は,長期的目標を達成するための複雑なポリシを学習できると同時に,短期的な要件に対応するための調整も容易である。
論文参考訳（メタデータ） (2021-09-28T03:35:09Z)
Learning to Synthesize Programs as Interpretable and Generalizable Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2021-08-31T07:03:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。