論文の概要: Regularizing Adversarial Imitation Learning Using Causal Invariance
- arxiv url: http://arxiv.org/abs/2308.09189v1
- Date: Thu, 17 Aug 2023 21:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 15:28:10.737272
- Title: Regularizing Adversarial Imitation Learning Using Causal Invariance
- Title(参考訳): 因果不変性を用いた正則化逆模倣学習
- Authors: Ivan Ovinnikov, Joachim M. Buhmann
- Abstract要約: シミュレーション学習法は、マルコフ決定プロセスにおけるポリシーを専門家によるデモンストレーションのデータセットから推論するために用いられる。
本稿では,これらのモデルの正則化原理として因果不変性を用いることを提案する。
実測的な2次元設定における正規化定式化の有効性と,多数の高次元ロボット移動ベンチマークタスクの有効性を実証する。
- 参考スコア(独自算出の注目度): 8.4336760053489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning methods are used to infer a policy in a Markov decision
process from a dataset of expert demonstrations by minimizing a divergence
measure between the empirical state occupancy measures of the expert and the
policy. The guiding signal to the policy is provided by the discriminator used
as part of an versarial optimization procedure. We observe that this model is
prone to absorbing spurious correlations present in the expert data. To
alleviate this issue, we propose to use causal invariance as a regularization
principle for adversarial training of these models. The regularization
objective is applicable in a straightforward manner to existing adversarial
imitation frameworks. We demonstrate the efficacy of the regularized
formulation in an illustrative two-dimensional setting as well as a number of
high-dimensional robot locomotion benchmark tasks.
- Abstract(参考訳): シミュレーション学習法は、専門家の経験的状態占有度と政策の差異を最小化することにより、専門家のデモンストレーションのデータセットからマルコフ決定プロセスのポリシーを推論するために用いられる。
ポリシーへの誘導信号は、汎用最適化手順の一部として使用される判別器によって提供される。
我々は、このモデルが専門家データに存在する散発的な相関を吸収しやすいことを観察する。
この問題を軽減するため,本研究では,これらのモデルの正則化原理として因果不変性を用いることを提案する。
正規化の目的は、既存の敵対的模倣フレームワークに簡単に適用できる。
実測的な2次元設定における正規化定式化の有効性と,多数の高次元ロボット移動ベンチマークタスクについて示す。
関連論文リスト
- Exogenous Matching: Learning Good Proposals for Tractable Counterfactual Estimation [1.9662978733004601]
本稿では, 抽出可能かつ効率的な対実表現推定のための重要サンプリング手法を提案する。
対物推定器の共通上限を最小化することにより、分散最小化問題を条件分布学習問題に変換する。
構造因果モデル (Structure Causal Models, SCM) の様々なタイプと設定による実験による理論的結果の検証と, 対実推定タスクにおける性能の実証を行った。
論文 参考訳(メタデータ) (2024-10-17T03:08:28Z) - Regularization for Adversarial Robust Learning [18.46110328123008]
我々は,$phi$-divergence正規化を分散ロバストなリスク関数に組み込む,対角訓練のための新しい手法を開発した。
この正規化は、元の定式化と比較して計算の顕著な改善をもたらす。
本研究では,教師付き学習,強化学習,文脈学習において提案手法の有効性を検証し,様々な攻撃に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2024-08-19T03:15:41Z) - Predictive Performance Comparison of Decision Policies Under Confounding [32.21041697921289]
そこで本稿では, 意思決定ポリシーの予測性能を, 様々な現代的な識別手法で比較する手法を提案する。
我々の手法の鍵は、政策比較において安全に無視できる不確実性領域が存在するという洞察である。
論文 参考訳(メタデータ) (2024-04-01T01:27:07Z) - Deconfounding Imitation Learning with Variational Inference [19.99248795957195]
標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
論文 参考訳(メタデータ) (2022-11-04T18:00:02Z) - Toward Learning Robust and Invariant Representations with Alignment
Regularization and Data Augmentation [76.85274970052762]
本論文はアライメント正則化の選択肢の増大を動機としている。
我々は、ロバスト性および不変性の次元に沿って、いくつかの人気のある設計選択のパフォーマンスを評価する。
我々はまた、現実的と考える仮定の下で経験的な研究を補完するために、アライメント正則化の挙動を正式に分析する。
論文 参考訳(メタデータ) (2022-06-04T04:29:19Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Representation Learning via Invariant Causal Mechanisms [19.0976564154636]
ラベルなしデータのみを用いて表現を事前学習することで、コストのかかる教師付き信号への依存を減らすための戦略として、自己教師付き学習が登場した。
プレトレーニング時に使用されるプロキシ分類器の明示的な不変性制約によって、データ拡張をより効果的に活用する方法を示す。
そこで本稿では,新たな自己教師型学習手法であるRepresentation Learning via In Causvariantal Mechanisms (Relic)を提案する。
論文 参考訳(メタデータ) (2020-10-15T17:53:37Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。