論文の概要: Offline Imitation Learning with Variational Counterfactual Reasoning
- arxiv url: http://arxiv.org/abs/2310.04706v2
- Date: Tue, 10 Oct 2023 04:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 16:30:17.895111
- Title: Offline Imitation Learning with Variational Counterfactual Reasoning
- Title(参考訳): 変分逆推論を用いたオフライン模倣学習
- Authors: Bowei He, Zexu Sun, Jinxin Liu, Shuai Zhang, Xu Chen, Chen Ma
- Abstract要約: オフラインのImitation Learning (IL)では、エージェントは、追加のオンライン環境相互作用なしに最適な専門家の行動ポリシーを学ぶことを目的としている。
UnderlineCounterfactual Data UnderlineAugmentation (OILCA) を用いた UnderlineOffline UnderlineImitation UnderlineLearning というフレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.344961438658427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In offline Imitation Learning (IL), an agent aims to learn an optimal expert
behavior policy without additional online environment interactions. However, in
many real-world scenarios, such as robotics manipulation, the offline dataset
is collected from suboptimal behaviors without rewards. Due to the scarce
expert data, the agents usually suffer from simply memorizing poor trajectories
and are vulnerable to the variations in the environments, lacking the
capability of generalizing to new environments. To effectively remove spurious
features that would otherwise bias the agent and hinder generalization, we
propose a framework named \underline{O}ffline \underline{I}mitation
\underline{L}earning with \underline{C}ounterfactual data
\underline{A}ugmentation (OILCA). In particular, we leverage the identifiable
variational autoencoder to generate \textit{counterfactual} samples. We
theoretically analyze the counterfactual identification and the improvement of
generalization. Moreover, we conduct extensive experiments to demonstrate that
our approach significantly outperforms various baselines on both
\textsc{DeepMind Control Suite} benchmark for in-distribution robustness and
\textsc{CausalWorld} benchmark for out-of-distribution generalization.
- Abstract(参考訳): オフライン模倣学習(il)では、エージェントは、追加のオンライン環境の相互作用なしに最適な専門家の行動方針を学ぶことを目指している。
しかし、ロボット操作のような現実世界の多くのシナリオでは、オフラインデータセットは報酬なしで最適な振る舞いから収集される。
専門家データが少ないため、エージェントは通常、単に形容詞の悪い記憶に苦しめられ、環境の変化に弱いため、新しい環境に一般化する能力が欠如している。
エージェントをバイアスし、一般化を妨げるようなスプリアス的特徴を効果的に除去するために、OILCA(Ounderline{O}ffline \underline{I}mitation \underline{L}earning with \underline{C}ounterfactual data \underline{A}ugmentation)というフレームワークを提案する。
特に、識別可能な変分オートエンコーダを利用して \textit{counterfactual} サンプルを生成する。
理論的にカウンターファクトの同定と一般化の改善を解析する。
さらに,本手法は,分布内ロバスト性のベンチマークと分布外一般化のベンチマークの両方において,さまざまなベースラインを著しく上回ることを示すため,広範囲な実験を行った。
関連論文リスト
- AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。
本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。
提案フレームワークの一般化と記憶性能を理論的に解析した。
論文 参考訳(メタデータ) (2023-09-18T21:00:01Z) - Equivariant Data Augmentation for Generalization in Offline
Reinforcement Learning [10.00979536266327]
オフライン強化学習(RL)における一般化の課題に対処する新しいアプローチを提案する。
具体的には,エージェントのアウト・オブ・ディストリビューション目標への一般化能力の向上を目指す。
我々は、オフラインのオフラインRLアルゴリズムを用いて、拡張データセットに基づいて新しいポリシーをオフラインで学習する。
論文 参考訳(メタデータ) (2023-09-14T10:22:33Z) - Personalized Federated Learning via Amortized Bayesian Meta-Learning [21.126405589760367]
我々は,Amortized Bayesian Meta-Learningを通じて,パーソナライズド・フェデレーション・ラーニングの新しい視点を紹介する。
具体的には,クライアント間の階層的変動推論を用いたemphFedABMLという新しいアルゴリズムを提案する。
我々の理論解析は平均一般化誤差の上限を提供し、未知のデータに対する一般化性能を保証する。
論文 参考訳(メタデータ) (2023-07-05T11:58:58Z) - Discriminator-Weighted Offline Imitation Learning from Suboptimal
Demonstrations [5.760034336327491]
エージェントがオンライン環境を付加せずに最適な専門家行動ポリシーを学習することを目的としたオフライン学習(IL)の課題について検討する。
専門家と非専門家のデータを区別するために,新たな識別器を導入する。
提案アルゴリズムは,ベースラインアルゴリズムよりも高いリターンと高速なトレーニング速度を実現する。
論文 参考訳(メタデータ) (2022-07-20T17:29:04Z) - Adapting to Online Label Shift with Provable Guarantees [137.89382409682233]
オンラインラベルシフトの問題を定式化し,検討する。
非定常性と監督の欠如は、この問題に取り組むことを困難にしている。
我々のアルゴリズムは最適な動的後悔を享受しており、性能が透かしの性質と競合していることを示している。
論文 参考訳(メタデータ) (2022-07-05T15:43:14Z) - Leveraging Expert Guided Adversarial Augmentation For Improving
Generalization in Named Entity Recognition [50.85774164546487]
名前付きエンティティ認識(NER)システムは、しばしば分散データに対して優れた性能を示すが、シフトした分布から引き出された例では性能が良くない。
本稿では、専門家誘導型を利用してエンティティトークンとその周辺状況を変更することにより、そのエンティティタイプを敵攻撃として変更することを提案する。
その結果、2003年のCoNLLで訓練された最先端のNERシステムは、我々の挑戦的なセットで劇的に性能を低下させることがわかった。
論文 参考訳(メタデータ) (2022-03-21T01:21:12Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z) - Automatic Data Augmentation for Generalization in Deep Reinforcement
Learning [39.477038093585726]
深層強化学習(RL)エージェントは、しばしば目に見えないシナリオへの一般化に失敗する。
近年,RL剤の試料効率と一般化が向上することが示されている。
エージェントはエージェントに影響を与えない環境の変化に対してより堅牢なポリシーや表現を学ぶ。
論文 参考訳(メタデータ) (2020-06-23T09:50:22Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。