Fugu-MT 論文翻訳(概要): Offline Imitation Learning with Variational Counterfactual Reasoning

論文の概要: Offline Imitation Learning with Variational Counterfactual Reasoning

arxiv url: http://arxiv.org/abs/2310.04706v4
Date: Fri, 29 Dec 2023 09:40:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 01:35:45.372549
Title: Offline Imitation Learning with Variational Counterfactual Reasoning
Title（参考訳）: 変分逆推論を用いたオフライン模倣学習
Authors: Bowei He, Zexu Sun, Jinxin Liu, Shuai Zhang, Xu Chen, Chen Ma
Abstract要約: エージェントは、オフライン模倣学習(IL)において、オンライン環境を付加せずに最適な専門家の行動ポリシーを学習することを目的としている。本稿では,アンダーライン・アンダーライン・インダーライン・インダーラインLearning with UnderlineCounterfactual Data UnderlineAugmentation (OILCA) by doing counterfactual Inferenceを提案する。
参考スコア（独自算出の注目度）: 17.344961438658427
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In offline imitation learning (IL), an agent aims to learn an optimal expert behavior policy without additional online environment interactions. However, in many real-world scenarios, such as robotics manipulation, the offline dataset is collected from suboptimal behaviors without rewards. Due to the scarce expert data, the agents usually suffer from simply memorizing poor trajectories and are vulnerable to variations in the environments, lacking the capability of generalizing to new environments. To automatically generate high-quality expert data and improve the generalization ability of the agent, we propose a framework named \underline{O}ffline \underline{I}mitation \underline{L}earning with \underline{C}ounterfactual data \underline{A}ugmentation (OILCA) by doing counterfactual inference. In particular, we leverage identifiable variational autoencoder to generate \textit{counterfactual} samples for expert data augmentation. We theoretically analyze the influence of the generated expert data and the improvement of generalization. Moreover, we conduct extensive experiments to demonstrate that our approach significantly outperforms various baselines on both \textsc{DeepMind Control Suite} benchmark for in-distribution performance and \textsc{CausalWorld} benchmark for out-of-distribution generalization. Our code is available at \url{https://github.com/ZexuSun/OILCA-NeurIPS23}.
Abstract（参考訳）: オフライン模倣学習(il)では、エージェントは、追加のオンライン環境の相互作用なしに最適な専門家の行動方針を学ぶことを目指している。しかし、ロボット操作のような現実世界の多くのシナリオでは、オフラインデータセットは報酬なしで最適な振る舞いから収集される。専門家データが少ないため、エージェントは通常、単に足跡を覚えず、環境の変化に弱いため、新しい環境に一般化する能力が欠如している。本稿では,高品質な専門家データを自動的に生成し,エージェントの一般化能力を向上させるために,デファクト推論を行うことにより,サンダーライン{O}ffline \underline{I}mitation \underline{L}earning with \underline{C}ounterfactual data \underline{A}ugmentation (OILCA)を提案する。特に、特定可能な変分オートエンコーダを利用して、専門家データ拡張のための \textit{counterfactual} サンプルを生成する。生成した専門家データの影響と一般化の改善を理論的に分析する。さらに,本手法が分散性能のための \textsc{deepmind control suite} ベンチマークと分散一般化のための \textsc{causalworld} ベンチマークの両方において,様々なベースラインを上回ることを示すために,広範な実験を行った。我々のコードは \url{https://github.com/ZexuSun/OILCA-NeurIPS23} で入手できる。

関連論文リスト

Generate to Discriminate: Expert Routing for Continual Learning [59.71853576559306]
Generate to Discriminate (G2D) は、合成データを利用してドメイン識別器を訓練する連続学習手法である。我々は、G2Dが視覚と言語の両方におけるタスクにおいて、競争力のあるドメイン・インクリメンタル・ラーニング手法より優れていることを観察する。
論文参考訳（メタデータ） (2024-12-22T13:16:28Z)
AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。 AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-23T18:56:26Z)
Analysis of the Memorization and Generalization Capabilities of AI Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。提案フレームワークの一般化と記憶性能を理論的に解析した。
論文参考訳（メタデータ） (2023-09-18T21:00:01Z)
Equivariant Data Augmentation for Generalization in Offline Reinforcement Learning [10.00979536266327]
オフライン強化学習(RL)における一般化の課題に対処する新しいアプローチを提案する。具体的には,エージェントのアウト・オブ・ディストリビューション目標への一般化能力の向上を目指す。我々は、オフラインのオフラインRLアルゴリズムを用いて、拡張データセットに基づいて新しいポリシーをオフラインで学習する。
論文参考訳（メタデータ） (2023-09-14T10:22:33Z)
Personalized Federated Learning via Amortized Bayesian Meta-Learning [21.126405589760367]
我々は,Amortized Bayesian Meta-Learningを通じて,パーソナライズド・フェデレーション・ラーニングの新しい視点を紹介する。具体的には,クライアント間の階層的変動推論を用いたemphFedABMLという新しいアルゴリズムを提案する。我々の理論解析は平均一般化誤差の上限を提供し、未知のデータに対する一般化性能を保証する。
論文参考訳（メタデータ） (2023-07-05T11:58:58Z)
Discriminator-Weighted Offline Imitation Learning from Suboptimal Demonstrations [5.760034336327491]
エージェントがオンライン環境を付加せずに最適な専門家行動ポリシーを学習することを目的としたオフライン学習(IL)の課題について検討する。専門家と非専門家のデータを区別するために,新たな識別器を導入する。提案アルゴリズムは,ベースラインアルゴリズムよりも高いリターンと高速なトレーニング速度を実現する。
論文参考訳（メタデータ） (2022-07-20T17:29:04Z)
Adapting to Online Label Shift with Provable Guarantees [137.89382409682233]
オンラインラベルシフトの問題を定式化し,検討する。非定常性と監督の欠如は、この問題に取り組むことを困難にしている。我々のアルゴリズムは最適な動的後悔を享受しており、性能が透かしの性質と競合していることを示している。
論文参考訳（メタデータ） (2022-07-05T15:43:14Z)
Leveraging Expert Guided Adversarial Augmentation For Improving Generalization in Named Entity Recognition [50.85774164546487]
名前付きエンティティ認識(NER)システムは、しばしば分散データに対して優れた性能を示すが、シフトした分布から引き出された例では性能が良くない。本稿では、専門家誘導型を利用してエンティティトークンとその周辺状況を変更することにより、そのエンティティタイプを敵攻撃として変更することを提案する。その結果、2003年のCoNLLで訓練された最先端のNERシステムは、我々の挑戦的なセットで劇的に性能を低下させることがわかった。
論文参考訳（メタデータ） (2022-03-21T01:21:12Z)
Where is the Grass Greener? Revisiting Generalized Policy Iteration for Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文参考訳（メタデータ） (2021-07-03T11:00:56Z)
PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文参考訳（メタデータ） (2021-02-13T17:16:41Z)
Automatic Data Augmentation for Generalization in Deep Reinforcement Learning [39.477038093585726]
深層強化学習(RL)エージェントは、しばしば目に見えないシナリオへの一般化に失敗する。近年,RL剤の試料効率と一般化が向上することが示されている。エージェントはエージェントに影響を与えない環境の変化に対してより堅牢なポリシーや表現を学ぶ。
論文参考訳（メタデータ） (2020-06-23T09:50:22Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。