論文の概要: Offline Imitation from Observation via Primal Wasserstein State
Occupancy Matching
- arxiv url: http://arxiv.org/abs/2311.01331v2
- Date: Tue, 21 Nov 2023 18:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 04:12:29.938086
- Title: Offline Imitation from Observation via Primal Wasserstein State
Occupancy Matching
- Title(参考訳): 主観的ワッサースタイン状態のマッチングによるオフラインの模倣
- Authors: Kai Yan, Alexander G. Schwing, Yu-xiong Wang
- Abstract要約: 我々は,Primal Wasserstein DICEが,悲観的正則化器を用いて,エキスパートと学習者の状態占有率の原始的なワッサースタイン距離を最小化できることを示した。
我々のフレームワークは最先端のSMODICEと$f$-divergenceとWassersteinの最小化の一般化である。
- 参考スコア(独自算出の注目度): 122.11358440078581
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In real-world scenarios, arbitrary interactions with the environment can
often be costly, and actions of expert demonstrations are not always available.
To reduce the need for both, Offline Learning from Observations (LfO) is
extensively studied, where the agent learns to solve a task with only expert
states and \textit{task-agnostic} non-expert state-action pairs. The
state-of-the-art DIstribution Correction Estimation (DICE) methods minimize the
state occupancy divergence between the learner and expert policies. However,
they are limited to either $f$-divergences (KL and $\chi^2$) or Wasserstein
distance with Rubinstein duality, the latter of which constrains the underlying
distance metric crucial to the performance of Wasserstein-based solutions. To
address this problem, we propose Primal Wasserstein DICE (PW-DICE), which
minimizes the primal Wasserstein distance between the expert and learner state
occupancies with a pessimistic regularizer and leverages a contrastively
learned distance as the underlying metric for the Wasserstein distance.
Theoretically, we prove that our framework is a generalization of the
state-of-the-art, SMODICE, and unifies $f$-divergence and Wasserstein
minimization. Empirically, we find that PW-DICE improves upon several
state-of-the-art methods on multiple testbeds.
- Abstract(参考訳): 現実のシナリオでは、環境との任意のインタラクションはコストがかかり、専門家によるデモンストレーションのアクションは必ずしも利用できない。
両方の必要性を減らすために、オフライン学習 from Observations (LfO) が広範囲に研究され、エージェントは専門家状態のみでタスクを解くことを学ぶ。
state-of-the-art distribution correction estimation (dice)法は、学習者と専門家のポリシーの間の状態占有率の相違を最小限に抑える。
しかしながら、これらは、ルビンシュタイン双対性(英語版)(Rubinstein duality)とワッサーシュタイン距離(英語版)(Wasserstein distance) (KL と $\chi^2$) のどちらかに制限されている。
この問題に対処するために,我々は,専門家と学習者の間の初歩的なwasserstein距離を悲観的正規化子で最小化し,比較的に学習した距離をwasserstein距離の基準として活用するprimal wasserstein dice (pw-dice)を提案する。
理論的には、我々のフレームワークは最先端のSMODICEの一般化であり、$f$-divergence と Wasserstein の最小化を統一することを証明する。
実験的にPW-DICEは複数のテストベッド上での最先端の手法を改善する。
関連論文リスト
- A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Wasserstein Adversarial Examples on Univariant Time Series Data [23.15675721397447]
時系列データに対するワッサーシュタイン空間の逆例を提案する。
We use Wasserstein distance to bound the perturbation between normal example and adversarial examples。
医療領域における時系列データセットに対する攻撃を実証的に評価した。
論文 参考訳(メタデータ) (2023-03-22T07:50:15Z) - Wasserstein GANs Work Because They Fail (to Approximate the Wasserstein
Distance) [1.1470070927586016]
wasserstein gans は実分布と生成分布の間の wasserstein 距離を最小化するアイデアに基づいている。
理論的なセットアップとWasserstein GANのトレーニングの現実の違いの詳細な数学的分析を提供します。
論文 参考訳(メタデータ) (2021-03-02T12:30:25Z) - Towards Generalized Implementation of Wasserstein Distance in GANs [46.79148259312607]
ワッサーシュタイン GANs (WGANs) は、ワッサーシュタイン距離のカンタロヴィチ-ルビンシュタイン双対性上に構築された。
実際には、GANの他の変種よりも常に優れているとは限らない。
Sobolev Wasserstein GAN(SWGAN)という一般的なWGANトレーニングスキームを提案します。
論文 参考訳(メタデータ) (2020-12-07T02:22:23Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - On Projection Robust Optimal Transport: Sample Complexity and Model
Misspecification [101.0377583883137]
射影ロバスト(PR)OTは、2つの測度の間のOTコストを最大化するために、射影可能な$k$次元部分空間を選択する。
私たちの最初の貢献は、PRワッサーシュタイン距離のいくつかの基本的な統計的性質を確立することである。
次に、部分空間を最適化するのではなく平均化することにより、PRW距離の代替として積分PRワッサーシュタイン距離(IPRW)を提案する。
論文 参考訳(メタデータ) (2020-06-22T14:35:33Z) - Primal Wasserstein Imitation Learning [44.87651595571687]
概念的にシンプルなアルゴリズムに基づく新しいImitation Learning (IL)法: Primal Wasserstein Imitation Learning (PWIL)を提案する。
エージェントインタラクションや環境とのエキスパートインタラクションの観点から,MuJoCoドメインのさまざまな連続制御タスクに関する専門家の振る舞いを,サンプルで効率的に再現できることが示される。
論文 参考訳(メタデータ) (2020-06-08T15:30:11Z) - Hierarchical Optimal Transport for Robust Multi-View Learning [97.21355697826345]
2つの仮定は実際には疑わしいが、これは多視点学習の適用を制限する。
本稿では,これら2つの仮定への依存性を軽減するために,階層的最適輸送法を提案する。
HOT法は教師なし学習と半教師付き学習の両方に適用でき、実験結果から、合成タスクと実世界のタスクの両方で堅牢に動作することが示された。
論文 参考訳(メタデータ) (2020-06-04T22:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。