論文の概要: Adversarial Imitation Learning from Visual Observations using Latent
Information
- arxiv url: http://arxiv.org/abs/2309.17371v2
- Date: Tue, 23 Jan 2024 19:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 17:17:22.795578
- Title: Adversarial Imitation Learning from Visual Observations using Latent
Information
- Title(参考訳): 潜在情報を用いた視覚観察からの敵対的模倣学習
- Authors: Vittorio Giammarino, James Queeney, Ioannis Ch. Paschalidis
- Abstract要約: 視覚的観察から模倣学習の課題に焦点をあて,学習エージェントが専門家の動画を唯一の学習源として利用できるようにする。
本研究では,非政治的敵対的模倣手法とエージェントの状態を観察シーケンスから学習した潜在的表現を組み合わせ,Relatnt Adversarial from Observationsというアルゴリズムを導入する。
高次元連続ロボットタスクの実験では、我々のアルゴリズムは最先端の性能と一致し、計算上の優位性は大きい。
- 参考スコア(独自算出の注目度): 10.385864925381384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We focus on the problem of imitation learning from visual observations, where
the learning agent has access to videos of experts as its sole learning source.
The challenges of this framework include the absence of expert actions and the
partial observability of the environment, as the ground-truth states can only
be inferred from pixels. To tackle this problem, we first conduct a theoretical
analysis of imitation learning in partially observable environments. We
establish upper bounds on the suboptimality of the learning agent with respect
to the divergence between the expert and the agent latent state-transition
distributions. Motivated by this analysis, we introduce an algorithm called
Latent Adversarial Imitation from Observations, which combines off-policy
adversarial imitation techniques with a learned latent representation of the
agent's state from sequences of observations. In experiments on
high-dimensional continuous robotic tasks, we show that our algorithm matches
state-of-the-art performance while providing significant computational
advantages. Additionally, we show how our method can be used to improve the
efficiency of reinforcement learning from pixels by leveraging expert videos.
To ensure reproducibility, we provide free access to our code.
- Abstract(参考訳): 視覚的観察から模倣学習の課題に焦点をあて,学習エージェントが専門家の動画を唯一の学習源として利用できるようにする。
このフレームワークの課題は、エキスパートアクションの欠如と環境の部分的可観測性である。
この問題に取り組むため,我々はまず,部分的に観察可能な環境において模倣学習の理論解析を行う。
我々は、専門家とエージェントの潜伏状態遷移分布のばらつきに関して、学習エージェントの最適度に関する上限を確立する。
この分析に動機づけられたアルゴリズムは、観測のシーケンスからエージェントの状態の学習された潜在的表現と、オフ・ポリティカルな敵対的模倣技術を組み合わせたものである。
高次元連続ロボットタスクの実験では、我々のアルゴリズムは最先端の性能と一致し、計算上の優位性は大きい。
さらに,本手法を用いて,エキスパートビデオを活用することにより,画素からの強化学習の効率を向上させる方法を示す。
再現性を確保するため、コードへの無料アクセスを提供しています。
関連論文リスト
- Visually Robust Adversarial Imitation Learning from Videos with Contrastive Learning [9.240917262195046]
C-LAIfOは、ビデオからの模倣学習のために設計された計算効率の良いアルゴリズムである。
我々は、視覚的相違のある専門家ビデオから模倣の問題を解析する。
我々のアルゴリズムはこの空間内で完全に模倣を行う。
論文 参考訳(メタデータ) (2024-06-18T20:56:18Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-02-13T17:32:17Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - Seeing Differently, Acting Similarly: Imitation Learning with
Heterogeneous Observations [126.78199124026398]
多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。
本研究では、上記の学習問題を異種観察学習(HOIL)としてモデル化する。
本稿では,重要度重み付け,拒否学習,アクティブクエリに基づくIWREアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-17T05:44:04Z) - Domain-Robust Visual Imitation Learning with Mutual Information
Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文 参考訳(メタデータ) (2021-03-08T21:18:58Z) - Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning [6.523119805288132]
a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
論文 参考訳(メタデータ) (2020-11-23T08:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。