Fugu-MT 論文翻訳(概要): Parrot: Data-Driven Behavioral Priors for Reinforcement Learning

論文の概要: Parrot: Data-Driven Behavioral Priors for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2011.10024v1
Date: Thu, 19 Nov 2020 18:47:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-23 21:51:50.837554
Title: Parrot: Data-Driven Behavioral Priors for Reinforcement Learning
Title（参考訳）: Parrot: 強化学習のためのデータ駆動行動優先
Authors: Avi Singh, Huihan Liu, Gaoyue Zhou, Albert Yu, Nicholas Rhinehart, Sergey Levine
Abstract要約: そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。 RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
参考スコア（独自算出の注目度）: 79.32403825036792
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning provides a general framework for flexible decision making and control, but requires extensive data collection for each new task that an agent needs to learn. In other machine learning fields, such as natural language processing or computer vision, pre-training on large, previously collected datasets to bootstrap learning for new tasks has emerged as a powerful paradigm to reduce data requirements when learning a new task. In this paper, we ask the following question: how can we enable similarly useful pre-training for RL agents? We propose a method for pre-training behavioral priors that can capture complex input-output relationships observed in successful trials from a wide range of previously seen tasks, and we show how this learned prior can be used for rapidly learning new tasks without impeding the RL agent's ability to try out novel behaviors. We demonstrate the effectiveness of our approach in challenging robotic manipulation domains involving image observations and sparse reward functions, where our method outperforms prior works by a substantial margin.
Abstract（参考訳）: 強化学習は柔軟な意思決定と制御のための一般的なフレームワークを提供するが、エージェントが学ぶべき新しいタスクごとに広範なデータ収集を必要とする。自然言語処理やコンピュータビジョンといった他の機械学習分野では、新しいタスクの学習をブートストラップするために以前収集した大規模なデータセットを事前トレーニングすることが、新しいタスクを学習する際にデータ要求を減らす強力なパラダイムとして現れている。本稿では,RLエージェントに対して同様に有用な事前学習を可能にするにはどうすればよいのか,という質問を行う。そこで本研究では, 様々な課題から, 実験で観察された複雑な入出力関係を捉えた行動事前学習手法を提案し, rlエージェントが新たな行動を試す能力に支障をきたすことなく, 新たなタスクを迅速に学習できることを示す。提案手法は,画像観察とスパース報酬機能を含むロボット操作領域において,従来の手法よりもかなり高い精度で動作し,ロボット操作領域に対して,本手法の有効性を示す。

関連論文リスト

Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
Learning and Retrieval from Prior Data for Skill-based Imitation Learning [47.59794569496233]
従来のデータから時間的に拡張された感触者スキルを抽出する,スキルベースの模倣学習フレームワークを開発した。新規タスクの性能を著しく向上させる重要な設計選択をいくつか挙げる。
論文参考訳（メタデータ） (2022-10-20T17:34:59Z)
Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2021-07-19T15:56:01Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
COG: Connecting New Skills to Past Experience with Offline Reinforcement Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文参考訳（メタデータ） (2020-10-27T17:57:29Z)
A Survey on Self-supervised Pre-training for Sequential Transfer Learning in Neural Networks [1.1802674324027231]
移動学習のための自己教師付き事前学習は、ラベルのないデータを用いて最先端の結果を改善する技術として、ますます人気が高まっている。本稿では,自己指導型学習と伝達学習の分類学の概要を述べるとともに,各領域にまたがる事前学習タスクを設計するためのいくつかの顕著な手法を強調した。
論文参考訳（メタデータ） (2020-07-01T22:55:48Z)
Meta-Reinforcement Learning Robust to Distributional Shift via Model Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文参考訳（メタデータ） (2020-06-12T13:34:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。