論文の概要: Imitation from Observation With Bootstrapped Contrastive Learning
- arxiv url: http://arxiv.org/abs/2302.06540v1
- Date: Mon, 13 Feb 2023 17:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 14:46:00.087582
- Title: Imitation from Observation With Bootstrapped Contrastive Learning
- Title(参考訳): ブートストラップ型コントラスト学習による観察からの模倣
- Authors: Medric Sonwa, Johanna Hansen, Eugene Belilovsky
- Abstract要約: IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 12.048166025000976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation from observation (IfO) is a learning paradigm that consists of
training autonomous agents in a Markov Decision Process (MDP) by observing
expert demonstrations without access to its actions. These demonstrations could
be sequences of environment states or raw visual observations of the
environment. Recent work in IfO has focused on this problem in the case of
observations of low-dimensional environment states, however, access to these
highly-specific observations is unlikely in practice. In this paper, we adopt a
challenging, but more realistic problem formulation, learning control policies
that operate on a learned latent space with access only to visual
demonstrations of an expert completing a task. We present BootIfOL, an IfO
algorithm that aims to learn a reward function that takes an agent trajectory
and compares it to an expert, providing rewards based on similarity to agent
behavior and implicit goal. We consider this reward function to be a distance
metric between trajectories of agent behavior and learn it via contrastive
learning. The contrastive learning objective aims to closely represent expert
trajectories and to distance them from non-expert trajectories. The set of
non-expert trajectories used in contrastive learning is made progressively more
complex by bootstrapping from roll-outs of the agent learned through RL using
the current reward function. We evaluate our approach on a variety of control
tasks showing that we can train effective policies using a limited number of
demonstrative trajectories, greatly improving on prior approaches that consider
raw observations.
- Abstract(参考訳): 観察からの模倣(imitation from observation、ifo)は、マルコフ決定プロセス(mdp)で自律的なエージェントを訓練し、その行動にアクセスせずに専門家のデモンストレーションを観察する学習パラダイムである。
これらのデモンストレーションは環境状態のシーケンスや環境の生の視覚的な観察である。
IfOの最近の研究は、低次元環境状態の観測においてこの問題に焦点を合わせているが、実際にはこれらの高度に特異的な観測へのアクセスはありそうにない。
本稿では,タスクを完了させる専門家の視覚的な実演にのみアクセス可能な,学習可能な潜在空間で動作する,より挑戦的で現実的な問題定式化,学習制御ポリシを採用する。
本稿では,エージェントの行動と類似性や暗黙的な目標に基づいて報酬関数を学習し,それを専門家に比較することを目的としたIfOアルゴリズムBootIfOLを提案する。
我々は,この報酬関数をエージェント行動の軌跡間の距離指標と考え,コントラスト学習を通して学習する。
コントラスト学習の目的は、専門的軌跡を密に表現し、非専門的軌跡から距離を置くことである。
コントラスト学習に使用される非経験的軌跡の集合は、現在の報酬関数を用いてrlで学習したエージェントのロールアウトからブートストラップすることで徐々に複雑になる。
提案手法を様々な制御タスクで評価し,限られた数のデモンストリアルトラジェクタを用いて効果的なポリシーを訓練できることを示し,生の観察を考慮に入れた先行手法を格段に改善した。
関連論文リスト
- Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Robust Visual Imitation Learning with Inverse Dynamics Representations [32.806294517277976]
我々は,専門家環境と学習環境を整合させるために,逆ダイナミクス状態表現学習目標を開発する。
抽象状態表現を用いて、行動データと専門家データとの類似性を徹底的に測定する効果的な報酬関数を設計する。
提案手法は,ほとんどの環境においてほぼ熟練した性能を実現し,最先端のビジュアルIL法やロバストIL法を著しく上回っている。
論文 参考訳(メタデータ) (2023-10-22T11:47:35Z) - Imitation Learning from Observation through Optimal Transport [25.398983671932154]
イミテーション・ラーニング・オブ・オブ・オブ・オブ・観察(ILfO)は、学習者が専門家の行動を模倣しようとする環境である。
学習モデルや逆学習を必要とせずに、既存の手法を単純化して報酬関数を生成することができることを示す。
我々は,このシンプルな手法が様々な連続制御タスクに対して有効であることを示し,IlfO設定の技法の状態を超越していることを見出した。
論文 参考訳(メタデータ) (2023-10-02T20:53:20Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Weakly-supervised HOI Detection via Prior-guided Bi-level Representation
Learning [66.00600682711995]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解において重要な役割を担い、多くの視覚タスクの基本的なビルディングブロックとして機能する。
HOI検出のための汎用的でスケーラブルな戦略の1つは、画像レベルのアノテーションからのみ学習する弱い監視を使用することである。
これは、不明瞭な人間と物体の関連、HOIを検出する大きな探索空間、非常にノイズの多い訓練信号によって本質的に困難である。
画像レベルとHOIインスタンスレベルの両方で事前の知識を組み込むことができるCLIP誘導HOI表現を開発し、不正な人間とオブジェクトの関連性を実証するために自己学習機構を採用する。
論文 参考訳(メタデータ) (2023-03-02T14:41:31Z) - Imitation by Predicting Observations [17.86983397979034]
本研究では, 連続制御タスクの課題に対して, 専門家に匹敵する性能を達成できる観測結果のみを模倣する新しい手法を提案する。
提案手法は, 逆RL目標から導出され, 専門家の観察結果の生成モデルを用いて学習した専門家の行動モデルを用いて模倣する。
本稿では,DeepMind Control Suiteベンチマークにおける強力なベースラインIRL法(GAIL)に対して,タスク非関連機能の存在下でGAILよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-07-08T14:09:30Z) - Seeing Differently, Acting Similarly: Imitation Learning with
Heterogeneous Observations [126.78199124026398]
多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。
本研究では、上記の学習問題を異種観察学習(HOIL)としてモデル化する。
本稿では,重要度重み付け,拒否学習,アクティブクエリに基づくIWREアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-17T05:44:04Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。