論文の概要: Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning
- arxiv url: http://arxiv.org/abs/2110.14118v1
- Date: Wed, 27 Oct 2021 01:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 12:48:53.489051
- Title: Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning
- Title(参考訳): 模倣学習における因果混乱解消のための物体認識正規化
- Authors: Jongjin Park, Younggyo Seo, Chang Liu, Li Zhao, Tao Qin, Jinwoo Shin,
Tie-Yan Liu
- Abstract要約: 本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
- 参考スコア(独自算出の注目度): 131.1852444489217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavioral cloning has proven to be effective for learning sequential
decision-making policies from expert demonstrations. However, behavioral
cloning often suffers from the causal confusion problem where a policy relies
on the noticeable effect of expert actions due to the strong correlation but
not the cause we desire. This paper presents Object-aware REgularizatiOn
(OREO), a simple technique that regularizes an imitation policy in an
object-aware manner. Our main idea is to encourage a policy to uniformly attend
to all semantic objects, in order to prevent the policy from exploiting
nuisance variables strongly correlated with expert actions. To this end, we
introduce a two-stage approach: (a) we extract semantic objects from images by
utilizing discrete codes from a vector-quantized variational autoencoder, and
(b) we randomly drop the units that share the same discrete code together,
i.e., masking out semantic objects. Our experiments demonstrate that OREO
significantly improves the performance of behavioral cloning, outperforming
various other regularization and causality-based methods on a variety of Atari
environments and a self-driving CARLA environment. We also show that our method
even outperforms inverse reinforcement learning methods trained with a
considerable amount of environment interaction.
- Abstract(参考訳): 行動のクローニングは、専門家のデモンストレーションから逐次的な意思決定方針を学ぶのに有効であることが証明されている。
しかし、行動のクローニングはしばしば因果的混乱の問題に苦しめられ、政策は強い相関による専門家の行動の顕著な効果に依存するが、我々が望む原因ではない。
本稿では、オブジェクト認識方式で模倣ポリシーを規則化するシンプルな手法であるオブジェクト認識型レギュラリサティオン(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
この目的のために、2段階のアプローチを導入します。
(a)ベクトル量子化変分オートエンコーダから離散符号を利用して画像から意味オブジェクトを抽出し、
(b)同じ離散コードを共有するユニット、すなわち意味オブジェクトをマスキングするユニットをランダムにドロップします。
実験により,oreoはさまざまなatari環境および自律運転carla環境において,行動クローニングの性能を著しく向上し,他の様々な正規化や因果性に基づく手法を上回った。
また,本手法は,多くの環境相互作用を訓練した逆強化学習手法よりも優れることを示した。
関連論文リスト
- SAFE-GIL: SAFEty Guided Imitation Learning [7.979892202477701]
行動クローニングは、ロボットが専門家の監督を観察し、制御ポリシーを学ぶという、模倣学習の一般的なアプローチである。
しかし、行動のクローンは、専門家のデモンストレーションから逸脱し、破滅的なシステム障害につながる可能性があるため、ポリシーのエラーが複雑になる"複合的エラー"問題に悩まされる。
本稿では,データ収集の際,専門家を敵対的障害から誘導する非政治行動クローニング手法であるSAFE-GILを提案する。
論文 参考訳(メタデータ) (2024-04-08T07:25:25Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Value function interference and greedy action selection in value-based
multi-objective reinforcement learning [1.4206639868377509]
多目的強化学習(MORL)アルゴリズムは従来の強化学習(RL)を拡張する
ユーザのユーティリティ関数が、ベクター値と類似のユーティリティレベルを幅広くマップしている場合、これは干渉を引き起こす可能性があることを示す。
我々は、欲求行動を特定する際にランダムなタイブレークを避けることは、値関数の干渉によって生じる問題を改善できるが、完全には克服できないことを実証的に示す。
論文 参考訳(メタデータ) (2024-02-09T09:28:01Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Data augmentation for efficient learning from parametric experts [88.33380893179697]
我々は、学生の政策の行動を伝えるために、専門家のオンラインまたはオフラインのクエリを使用する、ポリシーのクローン設定と呼ばれるものに焦点を当てる。
提案手法は,APC(Adgressed Policy Cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導する。
我々は,高次自由度制御問題に対して,専門家から学生政策への行動の高度にデータ効率のよい移行を実現する。
論文 参考訳(メタデータ) (2022-05-23T16:37:16Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Addressing Action Oscillations through Learning Policy Inertia [26.171039226334504]
Policy Inertia Controller (PIC) は、既製のDRLアルゴリズムの汎用的なプラグインフレームワークとして機能する。
PIC強化政策の一般的なトレーニングアルゴリズムとしてNested Policy Iterationを提案する。
DRLアルゴリズム、すなわちNested Soft Actor-Criticを導出する。
論文 参考訳(メタデータ) (2021-03-03T09:59:43Z) - Non-Adversarial Imitation Learning and its Connections to Adversarial
Methods [21.89749623434729]
非対人模倣学習のための枠組みを提案する。
結果のアルゴリズムは敵のアルゴリズムと似ている。
また, 新たなアルゴリズムを導出するために, 我々の非敵対的定式化が有効であることを示す。
論文 参考訳(メタデータ) (2020-08-08T13:43:06Z) - Connecting the Dots: Detecting Adversarial Perturbations Using Context
Inconsistency [25.039201331256372]
私たちは、トレーニング中のコンテキスト整合性ルールを学習し、テスト中の同じ違反をチェックするシステムで、Deep Neural Networkを強化します。
提案手法では,各オブジェクトクラス毎に自動エンコーダのセットを構築し,追加の対向摂動がコンテキスト整合規則に違反している場合,入力と出力の差分を出力するように適切に訓練する。
PASCAL VOCおよびMS COCOを用いた実験により,本手法は種々の敵攻撃を効果的に検出し,高いROC-AUC(ほとんどの場合0.95以上)を達成することが示された。
論文 参考訳(メタデータ) (2020-07-19T19:46:45Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。