論文の概要: Invariant Causal Imitation Learning for Generalizable Policies
- arxiv url: http://arxiv.org/abs/2311.01489v1
- Date: Thu, 2 Nov 2023 16:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 16:29:50.512325
- Title: Invariant Causal Imitation Learning for Generalizable Policies
- Title(参考訳): 一般化政策のための不変因果模倣学習
- Authors: Ioana Bica, Daniel Jarrett, Mihaela van der Schaar
- Abstract要約: Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
- 参考スコア(独自算出の注目度): 87.51882102248395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider learning an imitation policy on the basis of demonstrated behavior
from multiple environments, with an eye towards deployment in an unseen
environment. Since the observable features from each setting may be different,
directly learning individual policies as mappings from features to actions is
prone to spurious correlations -- and may not generalize well. However, the
expert's policy is often a function of a shared latent structure underlying
those observable features that is invariant across settings. By leveraging data
from multiple environments, we propose Invariant Causal Imitation Learning
(ICIL), a novel technique in which we learn a feature representation that is
invariant across domains, on the basis of which we learn an imitation policy
that matches expert behavior. To cope with transition dynamics mismatch, ICIL
learns a shared representation of causal features (for all training
environments), that is disentangled from the specific representations of noise
variables (for each of those environments). Moreover, to ensure that the
learned policy matches the observation distribution of the expert's policy,
ICIL estimates the energy of the expert's observations and uses a
regularization term that minimizes the imitator policy's next state energy.
Experimentally, we compare our methods against several benchmarks in control
and healthcare tasks and show its effectiveness in learning imitation policies
capable of generalizing to unseen environments.
- Abstract(参考訳): 複数の環境から実演行動に基づいて模倣ポリシーを学習し、目に見えない環境での展開に目を向ける。
各設定から観測可能な特徴が異なる可能性があるため、個々のポリシーを直接学習して、特徴から行動へのマッピングを学習することは、素早い相関関係になりがちであり、うまく一般化できない。
しかしながら、専門家のポリシーは、しばしば、設定間で不変な観測可能な機能を支える共有潜在構造の機能である。
本研究では,複数の環境から得られたデータを活用することで,専門家の行動に適合する模倣ポリシーを学習し,ドメイン間で不変な特徴表現を学習する新しい手法である,不変因果模倣学習(icil)を提案する。
遷移力学のミスマッチに対処するため、ICILはノイズ変数の特定の表現(それぞれの環境)から切り離された因果的特徴の共有表現(すべての訓練環境)を学習する。
さらに、学習した政策が専門家の政策の観測分布と一致することを保証するため、イシルは専門家の観測のエネルギーを推定し、模倣者の政策の次の状態エネルギーを最小化する正規化項を用いる。
実験では,本手法をコントロール課題と医療課題のベンチマークと比較し,非知覚環境に一般化可能な模倣政策を学習する上での有効性を示す。
関連論文リスト
- OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。
既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。
本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文 参考訳(メタデータ) (2024-05-29T13:36:36Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Open-Ended Diverse Solution Discovery with Regulated Behavior Patterns
for Cross-Domain Adaptation [5.090135391530077]
多様な行動特性を持つ政策は、様々な相違のある下流環境に一般化することができる。
このような方針は、現実世界のシステムのような現実的なシナリオにおける展開中に破滅的な被害をもたらす可能性がある。
本稿では,規制行動を用いた多彩な政策を訓練し,望ましいパターンを発見することを提案する。
論文 参考訳(メタデータ) (2022-09-24T15:13:51Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Instance based Generalization in Reinforcement Learning [24.485597364200824]
部分観測可能なマルコフ決定過程(POMDP)の文脈における政策学習の分析
探索戦略とは独立に、再使用したインスタンスは、トレーニング中にエージェントが観察するマルコフダイナミクスに大きな変化をもたらすことを証明している。
我々は、データ収集に使用されるコンセンサスポリシーを計算し、インスタンス固有のエクスプロイトを許可しない、特別なポリシーのアンサンブルに対して共有信念表現を訓練することを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:19:44Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。