論文の概要: Learning from Pixels with Expert Observations
- arxiv url: http://arxiv.org/abs/2306.13872v2
- Date: Sat, 15 Jul 2023 11:51:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-30 04:31:55.281299
- Title: Learning from Pixels with Expert Observations
- Title(参考訳): 専門的観察による画素からの学習
- Authors: Minh-Huy Hoang, Long Dinh, Hai Nguyen
- Abstract要約: 本稿では,ロボット操作作業における専門的な観察から学ぶための新しいアプローチを提案する。
具体的には、目標条件付きRLエージェントの中間的視覚目標として専門家観測を用いる。
シミュレーションにおける5つのブロック構築課題において,本手法の有効性を実証し,2つの最先端エージェントと組み合わせることで,その性能を著しく向上させることができることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning (RL), sparse rewards can present a significant
challenge. Fortunately, expert actions can be utilized to overcome this issue.
However, acquiring explicit expert actions can be costly, and expert
observations are often more readily available. This paper presents a new
approach that uses expert observations for learning in robot manipulation tasks
with sparse rewards from pixel observations. Specifically, our technique
involves using expert observations as intermediate visual goals for a
goal-conditioned RL agent, enabling it to complete a task by successively
reaching a series of goals. We demonstrate the efficacy of our method in five
challenging block construction tasks in simulation and show that when combined
with two state-of-the-art agents, our approach can significantly improve their
performance while requiring 4-20 times fewer expert actions during training.
Moreover, our method is also superior to a hierarchical baseline.
- Abstract(参考訳): 強化学習(RL)では、スパース報酬は大きな課題となる。
幸いなことに、この問題を解決するために専門家のアクションを利用することができます。
しかし、明示的な専門家の行動を得ることはコストがかかり、専門家の観察はより容易に得られる。
本稿では,ロボット操作作業における専門的な観察から学ぶための新しいアプローチを提案する。
具体的には,目標条件付きrlエージェントの中間視覚目標として専門家観察を用い,一連の目標を連続的に達成することでタスクを完了可能にする。
シミュレーションにおいて,5つの難易度ブロック構築課題において,本手法の有効性を実証し,2つの最先端エージェントと組み合わせることで,トレーニング中の専門家行動の4~20分の1を要しながら,その性能を大幅に向上できることを示す。
さらに,本手法は階層的ベースラインよりも優れている。
関連論文リスト
- Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-02-13T17:32:17Z) - Learning from Guided Play: Improving Exploration for Adversarial
Imitation Learning with Simple Auxiliary Tasks [8.320969283401233]
本研究は, 探索における標準的, ナイーブなアプローチが, 最適な局所的最大値として表れることを示す。
複数の探索的補助的タスクのエキスパートによるデモンストレーションを活用するフレームワークであるLfGP(Learning from Guided Play)を提示する。
論文 参考訳(メタデータ) (2022-12-30T20:38:54Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。