論文の概要: Imitation Learning from Observation with Automatic Discount Scheduling
- arxiv url: http://arxiv.org/abs/2310.07433v1
- Date: Wed, 11 Oct 2023 12:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 22:52:28.031761
- Title: Imitation Learning from Observation with Automatic Discount Scheduling
- Title(参考訳): 自動割引スケジューリングによる観察からの模倣学習
- Authors: Yuyang Liu, Weijun Dong, Yingdong Hu, Chuan Wen, Zhao-Heng Yin,
Chongjie Zhang, Yang Gao
- Abstract要約: ILfO問題に取り組むための一般的なアプローチは、それらを逆強化学習問題に変換することである。
本稿では、エージェントが後続のエージェントに進む前に、より早い振る舞いをマスターできる新しいILfOフレームワークを提案する。
本手法は, 解決不可能なタスクを含むすべてのタスクにおいて, 最先端のメソッドを著しく上回っている。
- 参考スコア(独自算出の注目度): 36.68836979168575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans often acquire new skills through observation and imitation. For
robotic agents, learning from the plethora of unlabeled video demonstration
data available on the Internet necessitates imitating the expert without access
to its action, presenting a challenge known as Imitation Learning from
Observations (ILfO). A common approach to tackle ILfO problems is to convert
them into inverse reinforcement learning problems, utilizing a proxy reward
computed from the agent's and the expert's observations. Nonetheless, we
identify that tasks characterized by a progress dependency property pose
significant challenges for such approaches; in these tasks, the agent needs to
initially learn the expert's preceding behaviors before mastering the
subsequent ones. Our investigation reveals that the main cause is that the
reward signals assigned to later steps hinder the learning of initial
behaviors. To address this challenge, we present a novel ILfO framework that
enables the agent to master earlier behaviors before advancing to later ones.
We introduce an Automatic Discount Scheduling (ADS) mechanism that adaptively
alters the discount factor in reinforcement learning during the training phase,
prioritizing earlier rewards initially and gradually engaging later rewards
only when the earlier behaviors have been mastered. Our experiments, conducted
on nine Meta-World tasks, demonstrate that our method significantly outperforms
state-of-the-art methods across all tasks, including those that are unsolvable
by them.
- Abstract(参考訳): 人間はしばしば観察と模倣によって新しいスキルを得る。
ロボットエージェントにとって、インターネット上で利用可能な多数のラベルのないビデオデモデータから学ぶことは、専門家をそのアクションにアクセスせずに模倣することを必要とし、Imitation Learning from Observations (ILfO)として知られる課題を提示している。
ILfO問題に取り組むための一般的なアプローチは、エージェントと専門家の観察から計算したプロキシ報酬を利用して、それらを逆強化学習問題に変換することである。
いずれにせよ,プログレッシブ依存特性に特徴付けられるタスクがこのようなアプローチに重大な課題をもたらすことは明らかであり,これらのタスクでは,エージェントは,後続のタスクを習得する前に,まず専門家の以前の振る舞いを学習する必要がある。
調査の結果,後段に割り当てられた報奨信号が初期行動の学習を妨げることが主な原因であることが判明した。
この課題に対処するために、エージェントが後続のエージェントに進む前に以前の動作をマスターできる新しいILfOフレームワークを提案する。
学習段階での強化学習における割引要因を適応的に変更し、初期報酬を優先し、初期行動がマスターされた場合にのみ後続報酬を徐々に実施する自動割引スケジューリング(ads)機構を導入する。
9つのメタワールドタスクで実施した実験により,本手法がすべてのタスクにおいて,解決不能なメソッドを含む最先端のメソッドを大幅に上回ることを実証した。
関連論文リスト
- Online Continual Learning via the Knowledge Invariant and Spread-out
Properties [4.109784267309124]
継続的な学習の鍵となる課題は破滅的な忘れ方だ。
知識不変性とスプレッドアウト特性(OCLKISP)を用いたオンライン連続学習法を提案する。
提案手法を,CIFAR 100, Split SVHN, Split CUB200, Split Tiny-Image-Netの4つのベンチマークで実証的に評価した。
論文 参考訳(メタデータ) (2023-02-02T04:03:38Z) - Towards Improving Exploration in Self-Imitation Learning using Intrinsic
Motivation [7.489793155793319]
強化学習(Reinforcement Learning)は、最適化タスクを効率的に解くための強力な代替手段として登場した。
これらのアルゴリズムの使用は、学習したエージェントが行う決定がどれほど良い(または悪い)かを知らせる環境の提供するフィードバック信号に大きく依存する。
この研究では、本質的な動機付けは、エージェントが好奇心に基づいて環境を探索することを奨励するのに対して、模倣学習は学習プロセスを加速するために最も有望な経験を繰り返すことができる。
論文 参考訳(メタデータ) (2022-11-30T09:18:59Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。