論文の概要: Programmatic Reinforcement Learning: Navigating Gridworlds
- arxiv url: http://arxiv.org/abs/2402.11650v2
- Date: Fri, 10 Jan 2025 09:44:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:24:11.200855
- Title: Programmatic Reinforcement Learning: Navigating Gridworlds
- Title(参考訳): プログラム強化学習 - グリッドワールドをナビゲートする
- Authors: Guruprerana Shabadi, Nathanaël Fijalkow, Théo Matricon,
- Abstract要約: プログラムRLはポリシーの表現をプログラムとして研究し、制御ループのような高次構造を含むことを意味する。
我々の主な貢献は、最適なプログラムポリシーのサイズに上限を設定し、それらのアルゴリズムを構築することである。
これらの理論的な結果は,アルゴリズムのプロトタイプ実装によって補完される。
- 参考スコア(独自算出の注目度): 1.956739480860805
- License:
- Abstract: The field of reinforcement learning (RL) is concerned with algorithms for learning optimal policies in unknown stochastic environments. Programmatic RL studies representations of policies as programs, meaning involving higher order constructs such as control loops. Despite attracting a lot of attention at the intersection of the machine learning and formal methods communities, very little is known on the theoretical front about programmatic RL: what are good classes of programmatic policies? How large are optimal programmatic policies? How can we learn them? The goal of this paper is to give first answers to these questions, initiating a theoretical study of programmatic RL. Considering a class of gridworld environments, we define a class of programmatic policies. Our main contributions are to place upper bounds on the size of optimal programmatic policies, and to construct an algorithm for synthesizing them. These theoretical findings are complemented by a prototype implementation of the algorithm.
- Abstract(参考訳): 強化学習(RL)の分野は、未知の確率環境下で最適な政策を学習するためのアルゴリズムに関するものである。
プログラムRLはポリシーの表現をプログラムとして研究し、制御ループのような高次構造を含むことを意味する。
機械学習とフォーマルなメソッドコミュニティの交差点で多くの注目を集めているにもかかわらず、プログラム的RLに関する理論的側面についてはほとんど知られていない。
最適なプログラムポリシーはどの程度あるか?
どうやって学べばいいのか?
本研究の目的は,プログラム型RLの理論的研究を始めとして,これらの質問に対する最初の回答を提供することである。
グリッドワールド環境のクラスを考えると、プログラムポリシーのクラスを定義する。
我々の主な貢献は、最適なプログラムポリシーのサイズに上限を設定し、それらを合成するためのアルゴリズムを構築することである。
これらの理論的な結果は,アルゴリズムのプロトタイプ実装によって補完される。
関連論文リスト
- Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - The Definitive Guide to Policy Gradients in Deep Reinforcement Learning:
Theory, Algorithms and Implementations [0.0]
近年、深層強化学習において、様々な強力なポリシー勾配アルゴリズムが提案されている。
本稿では,その理論的基礎と実践的実装の両方の理解を容易にするために,オン・ポリシー・グラデーション・アルゴリズムの概要について述べる。
論文 参考訳(メタデータ) (2024-01-24T18:56:53Z) - Program Machine Policy: Addressing Long-Horizon Tasks by Integrating
Program Synthesis and State Machines [7.159109885159399]
プログラムマシンポリシー(POMP)は、プログラムRLとステートマシンポリシーの利点を橋渡しする。
そこで本研究では,効果的で多様で互換性のあるプログラムの集合を検索する手法を提案する。
提案するフレームワークは,プログラム的RLと深いRLのベースラインを様々なタスクで上回る。
論文 参考訳(メタデータ) (2023-11-27T16:06:39Z) - Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。
提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。
Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-01-30T14:50:46Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。