Fugu-MT 論文翻訳(概要): Theoretical foundations for programmatic reinforcement learning

論文の概要: Theoretical foundations for programmatic reinforcement learning

arxiv url: http://arxiv.org/abs/2402.11650v1
Date: Sun, 18 Feb 2024 17:02:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 19:58:31.682045
Title: Theoretical foundations for programmatic reinforcement learning
Title（参考訳）: プログラム強化学習のための理論的基礎
Authors: Guruprerana Shabadi, Nathana\"el Fijalkow, Th\'eo Matricon
Abstract要約: プログラムRLはポリシーの表現をプログラムとして研究し、制御ループのような高次構造を含むことを意味する。機械学習と形式的手法のコミュニティの交差点で多くの注目を集めているが、プログラム的RLに関する理論的側面については、ほとんど知られていない。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The field of Reinforcement Learning (RL) is concerned with algorithms for learning optimal policies in unknown stochastic environments. Programmatic RL studies representations of policies as programs, meaning involving higher order constructs such as control loops. Despite attracting a lot of attention at the intersection of the machine learning and formal methods communities, very little is known on the theoretical front about programmatic RL: what are good classes of programmatic policies? How large are optimal programmatic policies? How can we learn them? The goal of this paper is to give first answers to these questions, initiating a theoretical study of programmatic RL.
Abstract（参考訳）: 強化学習(rl)の分野は、未知の確率環境において最適方針を学習するためのアルゴリズムに関するものである。プログラムRLは、制御ループのような高次構造を含むプログラムとしてポリシーの表現を研究する。機械学習とフォーマルなメソッドコミュニティの交差点で多くの注目を集めているにもかかわらず、プログラム的RLに関する理論的側面についてはほとんど知られていない。最適なプログラムポリシーはどのくらい大きいか? どうやって学ぶのか? 本論文の目的は,プログラム的rlの理論研究を始めながら,これらの質問に対する最初の回答を与えることである。

関連論文リスト

Probabilistic Curriculum Learning for Goal-Based Reinforcement Learning [2.5352713493505785]
報酬信号の最大化によって、人工エージェントに環境との対話を教えるアルゴリズムである強化学習は、近年大きな成功を収めている。有望な研究の方向性の1つは、一般に階層的またはカリキュラム強化学習を通じて、マルチモーダルポリシーを許容するための目標の導入である。本稿では,継続的制御およびナビゲーションタスクにおける強化学習エージェントの目標を提案するための,確率論的カリキュラム学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-02T08:15:16Z)
Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文参考訳（メタデータ） (2024-03-28T14:34:02Z)
The Definitive Guide to Policy Gradients in Deep Reinforcement Learning: Theory, Algorithms and Implementations [0.0]
近年、深層強化学習において、様々な強力なポリシー勾配アルゴリズムが提案されている。本稿では,その理論的基礎と実践的実装の両方の理解を容易にするために,オン・ポリシー・グラデーション・アルゴリズムの概要について述べる。
論文参考訳（メタデータ） (2024-01-24T18:56:53Z)
Program Machine Policy: Addressing Long-Horizon Tasks by Integrating Program Synthesis and State Machines [7.159109885159399]
プログラムマシンポリシー(POMP)は、プログラムRLとステートマシンポリシーの利点を橋渡しする。そこで本研究では,効果的で多様で互換性のあるプログラムの集合を検索する手法を提案する。提案するフレームワークは,プログラム的RLと深いRLのベースラインを様々なタスクで上回る。
論文参考訳（メタデータ） (2023-11-27T16:06:39Z)
Understanding Reinforcement Learning Algorithms: The Progress from Basic Q-learning to Proximal Policy Optimization [0.6091702876917281]
強化学習(RL)にはユニークな設定、用語、数学があり、新しい分野や人工知能を脅かすことができる。本稿では、RLの基本原理を明確かつ簡潔に概説し、RLアルゴリズムの異なるタイプについて述べる。論文の提示は、1980年代初頭のQ-ラーニングアルゴリズムから、TD3、PPO、オフラインRLといった最先端のアルゴリズムまで、この分野の歴史的進歩と一致している。
論文参考訳（メタデータ） (2023-03-31T17:24:51Z)
Hierarchical Programmatic Reinforcement Learning via Learning to Compose Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。 Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文参考訳（メタデータ） (2023-01-30T14:50:46Z)
Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-03T21:38:29Z)
Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文参考訳（メタデータ） (2022-10-03T14:57:46Z)
Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-23T09:03:24Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Constraint Sampling Reinforcement Learning: Incorporating Expertise For Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文参考訳（メタデータ） (2021-12-30T22:02:42Z)
Learning to Synthesize Programs as Interpretable and Generalizable Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2021-08-31T07:03:06Z)
Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。本稿では,更新ルール全体を検出するメタラーニング手法を提案する。これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文参考訳（メタデータ） (2020-07-17T07:38:39Z)
Implementation Matters in Deep Policy Gradients: A Case Study on PPO and TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。具体的には,「コードレベルの最適化」の結果について検討する。以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文参考訳（メタデータ） (2020-05-25T16:24:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。