論文の概要: Imitation Learning from Observations under Transition Model Disparity
- arxiv url: http://arxiv.org/abs/2204.11446v1
- Date: Mon, 25 Apr 2022 05:36:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 19:55:58.155650
- Title: Imitation Learning from Observations under Transition Model Disparity
- Title(参考訳): 遷移モデル差による観測からの模倣学習
- Authors: Tanmay Gangwani, Yuan Zhou, Jian Peng
- Abstract要約: 専門家の観察(ILO)のデータセットを活用することでタスクを実行する学習は、専門家の報酬機能や専門家の行動にアクセスせずにスキルを学ぶための重要なパラダイムである。
スケーラブルなILOのための最近の手法は、専門家と学習者の状態遷移分布に適合する逆学習を利用する。
本稿では,学習者環境における仲介ポリシーを訓練し,学習者の代理的専門家として利用するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 22.456737935789103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to perform tasks by leveraging a dataset of expert observations,
also known as imitation learning from observations (ILO), is an important
paradigm for learning skills without access to the expert reward function or
the expert actions. We consider ILO in the setting where the expert and the
learner agents operate in different environments, with the source of the
discrepancy being the transition dynamics model. Recent methods for scalable
ILO utilize adversarial learning to match the state-transition distributions of
the expert and the learner, an approach that becomes challenging when the
dynamics are dissimilar. In this work, we propose an algorithm that trains an
intermediary policy in the learner environment and uses it as a surrogate
expert for the learner. The intermediary policy is learned such that the state
transitions generated by it are close to the state transitions in the expert
dataset. To derive a practical and scalable algorithm, we employ concepts from
prior work on estimating the support of a probability distribution. Experiments
using MuJoCo locomotion tasks highlight that our method compares favorably to
the baselines for ILO with transition dynamics mismatch.
- Abstract(参考訳): 観察からの模倣学習(ILO)として知られる専門家観察のデータセットを活用することでタスクを実行する学習は、専門家報酬機能や専門家の行動にアクセスすることなくスキルを学ぶための重要なパラダイムである。
我々は、専門家と学習者エージェントが異なる環境で活動する環境において、ILOを考慮し、その違いの源泉は遷移力学モデルである。
スケーラブルなILOの最近の手法は,動的に異なる場合の課題である,専門家と学習者の状態遷移分布に適合する逆学習を利用する。
本研究では,学習者環境における仲介方針を訓練し,学習者の代理専門家として利用するアルゴリズムを提案する。
仲介ポリシーは、それによって生成される状態遷移がエキスパートデータセットの状態遷移に近くなるように学習される。
実用的でスケーラブルなアルゴリズムを導出するために,確率分布の支持度を推定する先行研究から概念を取り入れた。
MuJoCo の移動タスクを用いた実験では,ILO の基準値と遷移力学のミスマッチとを比較した。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。
LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文 参考訳(メタデータ) (2024-10-15T00:41:18Z) - Informed Meta-Learning [55.2480439325792]
メタラーニングとインシデントMLは、事前知識をMLパイプラインに組み込むための2つのアプローチとして際立っている。
我々は,非構造化知識表現からの事前の取り込みを容易にする,情報メタラーニングというハイブリッドパラダイムを定式化する。
データ効率、観測ノイズに対する堅牢性、タスク分散シフトを改善する上で、情報メタラーニングの潜在的な利点を実証する。
論文 参考訳(メタデータ) (2024-02-25T15:08:37Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Robust Visual Imitation Learning with Inverse Dynamics Representations [32.806294517277976]
我々は,専門家環境と学習環境を整合させるために,逆ダイナミクス状態表現学習目標を開発する。
抽象状態表現を用いて、行動データと専門家データとの類似性を徹底的に測定する効果的な報酬関数を設計する。
提案手法は,ほとんどの環境においてほぼ熟練した性能を実現し,最先端のビジュアルIL法やロバストIL法を著しく上回っている。
論文 参考訳(メタデータ) (2023-10-22T11:47:35Z) - Imitation Learning from Observation through Optimal Transport [25.398983671932154]
イミテーション・ラーニング・オブ・オブ・オブ・オブ・観察(ILfO)は、学習者が専門家の行動を模倣しようとする環境である。
学習モデルや逆学習を必要とせずに、既存の手法を単純化して報酬関数を生成することができることを示す。
我々は,このシンプルな手法が様々な連続制御タスクに対して有効であることを示し,IlfO設定の技法の状態を超越していることを見出した。
論文 参考訳(メタデータ) (2023-10-02T20:53:20Z) - Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-02-13T17:32:17Z) - Feature-Based Interpretable Reinforcement Learning based on
State-Transition Models [3.883460584034766]
現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。
強化学習におけるリスクに関する局所的な説明方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T23:43:11Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - On Data Efficiency of Meta-learning [17.739215706060605]
私たちは、現代のメタ学習アルゴリズムの見落とされがちな側面、すなわちそのデータ効率を研究します。
本稿では,メタラーニング手法を評価するための新しいシンプルなフレームワークを提案する。
本稿では,アクティブなデータ選択を学習学習に取り入れたアクティブなメタラーニングを提案する。
論文 参考訳(メタデータ) (2021-01-30T01:44:12Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。