論文の概要: Offline Imitation from Observation via Primal Wasserstein State Occupancy Matching
- arxiv url: http://arxiv.org/abs/2311.01331v3
- Date: Sun, 9 Jun 2024 18:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 04:47:59.415833
- Title: Offline Imitation from Observation via Primal Wasserstein State Occupancy Matching
- Title(参考訳): 原始ワッサースタイン状態同期による観測からのオフライン模倣
- Authors: Kai Yan, Alexander G. Schwing, Yu-xiong Wang,
- Abstract要約: 本稿では,学習者と専門的国家占有者の間の一次ワッサースタイン距離を最小化するために,プライマルワッサースタインDICEを提案する。
我々のフレームワークは SMODICE の一般化であり、$f$-divergence と Wasserstein の最小化を統一する最初の研究である。
- 参考スコア(独自算出の注目度): 111.78179839856293
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In real-world scenarios, arbitrary interactions with the environment can often be costly, and actions of expert demonstrations are not always available. To reduce the need for both, offline Learning from Observations (LfO) is extensively studied: the agent learns to solve a task given only expert states and task-agnostic non-expert state-action pairs. The state-of-the-art DIstribution Correction Estimation (DICE) methods, as exemplified by SMODICE, minimize the state occupancy divergence between the learner's and empirical expert policies. However, such methods are limited to either $f$-divergences (KL and $chi^2$) or Wasserstein distance with Rubinstein duality, the latter of which constrains the underlying distance metric crucial to the performance of Wasserstein-based solutions. To enable more flexible distance metrics, we propose Primal Wasserstein DICE (PW-DICE). It minimizes the primal Wasserstein distance between the learner and expert state occupancies and leverages a contrastively learned distance metric. Theoretically, our framework is a generalization of SMODICE, and is the first work that unifies $f$-divergence and Wasserstein minimization. Empirically, we find that PW-DICE improves upon several state-of-the-art methods. The code is available at https://github.com/KaiYan289/PW-DICE.
- Abstract(参考訳): 現実のシナリオでは、環境との任意のインタラクションはコストがかかり、専門家によるデモンストレーションのアクションは必ずしも利用できない。
双方の必要性を減らすために、オフラインの観察からの学習(LfO)が広範囲に研究され、エージェントは専門家状態のみを与えられたタスクと、タスクに依存しない非専門家状態-アクションペアだけを解くことを学習する。
SMODICEが示すように、最先端のDistribution Correction Estimation (DICE)手法は、学習者と経験的専門家の政策の間の状態占有のばらつきを最小限にする。
しかしながら、そのような方法は、$f$-divergences (KL と $chi^2$) またはルビンシュタイン双対性を持つワッサーシュタイン距離に制限される。
よりフレキシブルな距離測定を実現するために,PW-DICE(Primal Wasserstein DICE)を提案する。
学習者と専門的状態占有者の間の原始的なワッサーシュタイン距離を最小化し、対照的に学習された距離メートル法を利用する。
理論的には、我々のフレームワークは SMODICE の一般化であり、$f$-divergence と Wasserstein の最小化を統一する最初の研究である。
実験により,PW-DICEはいくつかの最先端手法を改善していることがわかった。
コードはhttps://github.com/KaiYan289/PW-DICEで公開されている。
関連論文リスト
- Estimating Barycenters of Distributions with Neural Optimal Transport [93.28746685008093]
本稿では,Wasserstein Barycenter問題を解くための新しいスケーラブルなアプローチを提案する。
我々の手法は最近のNeural OTソルバをベースとしている。
また,提案手法の理論的誤差境界も確立する。
論文 参考訳(メタデータ) (2024-02-06T09:17:07Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Wasserstein Adversarial Examples on Univariant Time Series Data [23.15675721397447]
時系列データに対するワッサーシュタイン空間の逆例を提案する。
We use Wasserstein distance to bound the perturbation between normal example and adversarial examples。
医療領域における時系列データセットに対する攻撃を実証的に評価した。
論文 参考訳(メタデータ) (2023-03-22T07:50:15Z) - Robust Estimation under the Wasserstein Distance [27.382258439576606]
$n$のサンプルが与えられたとき、その中の$varepsilon n$は逆向きに破損するので、最小のワッサーシュタイン誤差を持つ$mu$の見積もりを求める。
我々は、POTの新たな構造特性を証明し、それを用いて、部分ワッサーシュタイン距離下のMDEが極小最大最適ロバスト推定リスクを達成することを示す。
一般的なWGAN(Warsserstein Generative Adversarial Network)フレームワークは、カントロビッチ双対性を介してWasserstein MDEを実装しているため、当社のペナル化双対は、汚染されたデータセットによる大規模生成モデリングを可能にする。
論文 参考訳(メタデータ) (2023-02-02T17:20:25Z) - Approximative Algorithms for Multi-Marginal Optimal Transport and
Free-Support Wasserstein Barycenters [0.0]
N$離散確率測度に対する2乗ユークリッドコストで, マルチマルジナル最適輸送(MOT)の解を近似する2つのアルゴリズムを提案する。
高速で、メモリ効率が高く、実装も簡単で、どのスパースOTソルバでもブラックボックスとして使用することができる。
論文 参考訳(メタデータ) (2022-02-02T10:59:54Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - On Projection Robust Optimal Transport: Sample Complexity and Model
Misspecification [101.0377583883137]
射影ロバスト(PR)OTは、2つの測度の間のOTコストを最大化するために、射影可能な$k$次元部分空間を選択する。
私たちの最初の貢献は、PRワッサーシュタイン距離のいくつかの基本的な統計的性質を確立することである。
次に、部分空間を最適化するのではなく平均化することにより、PRW距離の代替として積分PRワッサーシュタイン距離(IPRW)を提案する。
論文 参考訳(メタデータ) (2020-06-22T14:35:33Z) - Primal Wasserstein Imitation Learning [44.87651595571687]
概念的にシンプルなアルゴリズムに基づく新しいImitation Learning (IL)法: Primal Wasserstein Imitation Learning (PWIL)を提案する。
エージェントインタラクションや環境とのエキスパートインタラクションの観点から,MuJoCoドメインのさまざまな連続制御タスクに関する専門家の振る舞いを,サンプルで効率的に再現できることが示される。
論文 参考訳(メタデータ) (2020-06-08T15:30:11Z) - Fast and Robust Comparison of Probability Measures in Heterogeneous
Spaces [62.35667646858558]
本稿では, アンカー・エナジー (AE) とアンカー・ワッサースタイン (AW) 距離を紹介する。
我々の主な貢献は、素案実装が立方体となる対数四重項時間でAEを正確に計算するスイープラインアルゴリズムを提案することである。
AE と AW は,一般的な GW 近似の計算コストのごく一部において,様々な実験環境において良好に動作することを示す。
論文 参考訳(メタデータ) (2020-02-05T03:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。