Fugu-MT 論文翻訳(概要): Programmatic Reinforcement Learning: Navigating Gridworlds

論文の概要: Programmatic Reinforcement Learning: Navigating Gridworlds

arxiv url: http://arxiv.org/abs/2402.11650v2
Date: Fri, 10 Jan 2025 09:44:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:14.919837
Title: Programmatic Reinforcement Learning: Navigating Gridworlds
Title（参考訳）: プログラム強化学習 - グリッドワールドをナビゲートする
Authors: Guruprerana Shabadi, Nathanaël Fijalkow, Théo Matricon,
Abstract要約: プログラムRLはポリシーの表現をプログラムとして研究し、制御ループのような高次構造を含むことを意味する。我々の主な貢献は、最適なプログラムポリシーのサイズに上限を設定し、それらのアルゴリズムを構築することである。これらの理論的な結果は,アルゴリズムのプロトタイプ実装によって補完される。
参考スコア（独自算出の注目度）: 1.956739480860805
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The field of reinforcement learning (RL) is concerned with algorithms for learning optimal policies in unknown stochastic environments. Programmatic RL studies representations of policies as programs, meaning involving higher order constructs such as control loops. Despite attracting a lot of attention at the intersection of the machine learning and formal methods communities, very little is known on the theoretical front about programmatic RL: what are good classes of programmatic policies? How large are optimal programmatic policies? How can we learn them? The goal of this paper is to give first answers to these questions, initiating a theoretical study of programmatic RL. Considering a class of gridworld environments, we define a class of programmatic policies. Our main contributions are to place upper bounds on the size of optimal programmatic policies, and to construct an algorithm for synthesizing them. These theoretical findings are complemented by a prototype implementation of the algorithm.
Abstract（参考訳）: 強化学習(RL)の分野は、未知の確率環境下で最適な政策を学習するためのアルゴリズムに関するものである。プログラムRLはポリシーの表現をプログラムとして研究し、制御ループのような高次構造を含むことを意味する。機械学習とフォーマルなメソッドコミュニティの交差点で多くの注目を集めているにもかかわらず、プログラム的RLに関する理論的側面についてはほとんど知られていない。最適なプログラムポリシーはどの程度あるか? どうやって学べばいいのか? 本研究の目的は,プログラム型RLの理論的研究を始めとして,これらの質問に対する最初の回答を提供することである。グリッドワールド環境のクラスを考えると、プログラムポリシーのクラスを定義する。我々の主な貢献は、最適なプログラムポリシーのサイズに上限を設定し、それらを合成するためのアルゴリズムを構築することである。これらの理論的な結果は,アルゴリズムのプロトタイプ実装によって補完される。

関連論文リスト

Probabilistic Curriculum Learning for Goal-Based Reinforcement Learning [2.5352713493505785]
報酬信号の最大化によって、人工エージェントに環境との対話を教えるアルゴリズムである強化学習は、近年大きな成功を収めている。有望な研究の方向性の1つは、一般に階層的またはカリキュラム強化学習を通じて、マルチモーダルポリシーを許容するための目標の導入である。本稿では,継続的制御およびナビゲーションタスクにおける強化学習エージェントの目標を提案するための,確率論的カリキュラム学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-02T08:15:16Z)
Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文参考訳（メタデータ） (2024-03-28T14:34:02Z)
The Definitive Guide to Policy Gradients in Deep Reinforcement Learning: Theory, Algorithms and Implementations [0.0]
近年、深層強化学習において、様々な強力なポリシー勾配アルゴリズムが提案されている。本稿では,その理論的基礎と実践的実装の両方の理解を容易にするために,オン・ポリシー・グラデーション・アルゴリズムの概要について述べる。
論文参考訳（メタデータ） (2024-01-24T18:56:53Z)
Program Machine Policy: Addressing Long-Horizon Tasks by Integrating Program Synthesis and State Machines [7.159109885159399]
プログラムマシンポリシー(POMP)は、プログラムRLとステートマシンポリシーの利点を橋渡しする。そこで本研究では,効果的で多様で互換性のあるプログラムの集合を検索する手法を提案する。提案するフレームワークは,プログラム的RLと深いRLのベースラインを様々なタスクで上回る。
論文参考訳（メタデータ） (2023-11-27T16:06:39Z)
Understanding Reinforcement Learning Algorithms: The Progress from Basic Q-learning to Proximal Policy Optimization [0.6091702876917281]
強化学習(RL)にはユニークな設定、用語、数学があり、新しい分野や人工知能を脅かすことができる。本稿では、RLの基本原理を明確かつ簡潔に概説し、RLアルゴリズムの異なるタイプについて述べる。論文の提示は、1980年代初頭のQ-ラーニングアルゴリズムから、TD3、PPO、オフラインRLといった最先端のアルゴリズムまで、この分野の歴史的進歩と一致している。
論文参考訳（メタデータ） (2023-03-31T17:24:51Z)
Hierarchical Programmatic Reinforcement Learning via Learning to Compose Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。 Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文参考訳（メタデータ） (2023-01-30T14:50:46Z)
Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-03T21:38:29Z)
Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文参考訳（メタデータ） (2022-10-03T14:57:46Z)
Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-23T09:03:24Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Constraint Sampling Reinforcement Learning: Incorporating Expertise For Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文参考訳（メタデータ） (2021-12-30T22:02:42Z)
Learning to Synthesize Programs as Interpretable and Generalizable Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2021-08-31T07:03:06Z)
Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。本稿では,更新ルール全体を検出するメタラーニング手法を提案する。これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文参考訳（メタデータ） (2020-07-17T07:38:39Z)
Implementation Matters in Deep Policy Gradients: A Case Study on PPO and TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。具体的には,「コードレベルの最適化」の結果について検討する。以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文参考訳（メタデータ） (2020-05-25T16:24:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。