論文の概要: Seeing Differently, Acting Similarly: Imitation Learning with
Heterogeneous Observations
- arxiv url: http://arxiv.org/abs/2106.09256v1
- Date: Thu, 17 Jun 2021 05:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 16:10:14.422762
- Title: Seeing Differently, Acting Similarly: Imitation Learning with
Heterogeneous Observations
- Title(参考訳): 異なる見方、同じように振る舞う:不均質な観察による模倣学習
- Authors: Xin-Qiang Cai, Yao-Xiang Ding, Zi-Xuan Chen, Yuan Jiang, Masashi
Sugiyama, Zhi-Hua Zhou
- Abstract要約: 多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。
本研究では、上記の学習問題を異種観察学習(HOIL)としてモデル化する。
本稿では,重要度重み付け,拒否学習,アクティブクエリに基づくIWREアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 126.78199124026398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world imitation learning tasks, the demonstrator and the learner
have to act in different but full observation spaces. This situation generates
significant obstacles for existing imitation learning approaches to work, even
when they are combined with traditional space adaptation techniques. The main
challenge lies in bridging expert's occupancy measures to learner's dynamically
changing occupancy measures under the different observation spaces. In this
work, we model the above learning problem as Heterogeneous Observations
Imitation Learning (HOIL). We propose the Importance Weighting with REjection
(IWRE) algorithm based on the techniques of importance-weighting, learning with
rejection, and active querying to solve the key challenge of occupancy measure
matching. Experimental results show that IWRE can successfully solve HOIL
tasks, including the challenging task of transforming the vision-based
demonstrations to random access memory (RAM)-based policies under the Atari
domain.
- Abstract(参考訳): 多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。
この状況は、従来の空間適応技術と組み合わせても、既存の模倣学習アプローチが機能する上で大きな障害となる。
主な課題は、異なる観測空間下での学習者の占有度を動的に変化させるための専門家の占有度を測定することである。
本研究では,上述の学習問題をヘテロジニアス観測模倣学習(HOIL)としてモデル化する。
本稿では,重要度重み付け,拒絶学習,能動的問合せの手法に基づき,iwreアルゴリズムによる重み付けを重要度重み付けアルゴリズムとして提案する。
実験の結果,IWRE は HOIL タスクの解決に成功し,Atari ドメイン下でのランダムアクセスメモリ (RAM) ベースのポリシーに視覚ベースのデモを変換する難しいタスクを含むことがわかった。
関連論文リスト
- Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - Robust Visual Imitation Learning with Inverse Dynamics Representations [32.806294517277976]
我々は,専門家環境と学習環境を整合させるために,逆ダイナミクス状態表現学習目標を開発する。
抽象状態表現を用いて、行動データと専門家データとの類似性を徹底的に測定する効果的な報酬関数を設計する。
提案手法は,ほとんどの環境においてほぼ熟練した性能を実現し,最先端のビジュアルIL法やロバストIL法を著しく上回っている。
論文 参考訳(メタデータ) (2023-10-22T11:47:35Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-02-13T17:32:17Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Imitation by Predicting Observations [17.86983397979034]
本研究では, 連続制御タスクの課題に対して, 専門家に匹敵する性能を達成できる観測結果のみを模倣する新しい手法を提案する。
提案手法は, 逆RL目標から導出され, 専門家の観察結果の生成モデルを用いて学習した専門家の行動モデルを用いて模倣する。
本稿では,DeepMind Control Suiteベンチマークにおける強力なベースラインIRL法(GAIL)に対して,タスク非関連機能の存在下でGAILよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-07-08T14:09:30Z) - Cross-domain Imitation from Observations [50.669343548588294]
模擬学習は、専門家の行動を利用して訓練エージェントに適切な報酬関数を設計することの難しさを回避しようとする。
本稿では,専門家とエージェントMDPの相違点が存在する場合に,タスクを模倣する方法の問題について検討する。
このようなドメイン間の対応を学習するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-20T21:08:25Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。