論文の概要: On the Theory of Reinforcement Learning with Once-per-Episode Feedback
- arxiv url: http://arxiv.org/abs/2105.14363v1
- Date: Sat, 29 May 2021 19:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:53:56.639778
- Title: On the Theory of Reinforcement Learning with Once-per-Episode Feedback
- Title(参考訳): 1回当たりフィードバックによる強化学習の理論について
- Authors: Niladri S. Chatterji, Aldo Pacchiano, Peter L. Bartlett, Michael I.
Jordan
- Abstract要約: 本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
- 参考スコア(独自算出の注目度): 120.5537226120512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a theory of reinforcement learning (RL) in which the learner
receives feedback only once at the end of an episode. While this is an extreme
test case for theory, it is also arguably more representative of real-world
applications than the traditional requirement in RL practice that the learner
receive feedback at every time step. Indeed, in many real-world applications of
reinforcement learning, such as self-driving cars and robotics, it is easier to
evaluate whether a learner's complete trajectory was either "good" or "bad,"
but harder to provide a reward signal at each step. To show that learning is
possible in this more challenging setting, we study the case where trajectory
labels are generated by an unknown parametric model, and provide a
statistically and computationally efficient algorithm that achieves sub-linear
regret.
- Abstract(参考訳): 本稿では,エピソード終了時にのみフィードバックを受ける強化学習理論(RL)を提案する。
これは理論の極端なテストケースであるが、学習者が毎回フィードバックを受け取るという従来のRL実践の要件よりも、現実世界の応用を代表していることは間違いない。
実際、自動運転車やロボット工学などの強化学習の現実的な応用では、学習者の完全な軌道が「良い」か「悪い」かを評価することは容易であるが、各ステップで報酬信号を提供することは困難である。
この難易度の高い環境では学習が可能であることを示すために,未知のパラメトリックモデルによって軌道ラベルが生成される場合を考察し,サブリニアな後悔を実現する統計的かつ計算効率の良いアルゴリズムを提供する。
関連論文リスト
- Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Fractional Transfer Learning for Deep Model-Based Reinforcement Learning [0.966840768820136]
強化学習(Reinforcement Learning, RL)は、RLエージェントが複雑なタスクを実行することを学ぶために大量のデータを必要とすることで知られている。
モデルベースRLの最近の進歩により、エージェントはずっとデータ効率が良い。
簡単な代替手法として、分数変換学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T12:44:42Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - A Theory of Universal Learning [26.51949485387526]
普遍的な学習の確率は3つしかないことを示す。
任意の概念クラスの学習曲線は指数的あるいは任意に遅い速度で減衰することを示す。
論文 参考訳(メタデータ) (2020-11-09T15:10:32Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。