論文の概要: Offline Imitation from Observation via Primal Wasserstein State
Occupancy Matching
- arxiv url: http://arxiv.org/abs/2311.01331v2
- Date: Tue, 21 Nov 2023 18:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 04:12:29.938086
- Title: Offline Imitation from Observation via Primal Wasserstein State
Occupancy Matching
- Title(参考訳): 主観的ワッサースタイン状態のマッチングによるオフラインの模倣
- Authors: Kai Yan, Alexander G. Schwing, Yu-xiong Wang
- Abstract要約: 我々は,Primal Wasserstein DICEが,悲観的正則化器を用いて,エキスパートと学習者の状態占有率の原始的なワッサースタイン距離を最小化できることを示した。
我々のフレームワークは最先端のSMODICEと$f$-divergenceとWassersteinの最小化の一般化である。
- 参考スコア(独自算出の注目度): 122.11358440078581
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In real-world scenarios, arbitrary interactions with the environment can
often be costly, and actions of expert demonstrations are not always available.
To reduce the need for both, Offline Learning from Observations (LfO) is
extensively studied, where the agent learns to solve a task with only expert
states and \textit{task-agnostic} non-expert state-action pairs. The
state-of-the-art DIstribution Correction Estimation (DICE) methods minimize the
state occupancy divergence between the learner and expert policies. However,
they are limited to either $f$-divergences (KL and $\chi^2$) or Wasserstein
distance with Rubinstein duality, the latter of which constrains the underlying
distance metric crucial to the performance of Wasserstein-based solutions. To
address this problem, we propose Primal Wasserstein DICE (PW-DICE), which
minimizes the primal Wasserstein distance between the expert and learner state
occupancies with a pessimistic regularizer and leverages a contrastively
learned distance as the underlying metric for the Wasserstein distance.
Theoretically, we prove that our framework is a generalization of the
state-of-the-art, SMODICE, and unifies $f$-divergence and Wasserstein
minimization. Empirically, we find that PW-DICE improves upon several
state-of-the-art methods on multiple testbeds.
- Abstract(参考訳): 現実のシナリオでは、環境との任意のインタラクションはコストがかかり、専門家によるデモンストレーションのアクションは必ずしも利用できない。
両方の必要性を減らすために、オフライン学習 from Observations (LfO) が広範囲に研究され、エージェントは専門家状態のみでタスクを解くことを学ぶ。
state-of-the-art distribution correction estimation (dice)法は、学習者と専門家のポリシーの間の状態占有率の相違を最小限に抑える。
しかしながら、これらは、ルビンシュタイン双対性(英語版)(Rubinstein duality)とワッサーシュタイン距離(英語版)(Wasserstein distance) (KL と $\chi^2$) のどちらかに制限されている。
この問題に対処するために,我々は,専門家と学習者の間の初歩的なwasserstein距離を悲観的正規化子で最小化し,比較的に学習した距離をwasserstein距離の基準として活用するprimal wasserstein dice (pw-dice)を提案する。
理論的には、我々のフレームワークは最先端のSMODICEの一般化であり、$f$-divergence と Wasserstein の最小化を統一することを証明する。
実験的にPW-DICEは複数のテストベッド上での最先端の手法を改善する。
関連論文リスト
- Estimating Barycenters of Distributions with Neural Optimal Transport [93.28746685008093]
本稿では,Wasserstein Barycenter問題を解くための新しいスケーラブルなアプローチを提案する。
我々の手法は最近のNeural OTソルバをベースとしている。
また,提案手法の理論的誤差境界も確立する。
論文 参考訳(メタデータ) (2024-02-06T09:17:07Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Wasserstein Adversarial Examples on Univariant Time Series Data [23.15675721397447]
時系列データに対するワッサーシュタイン空間の逆例を提案する。
We use Wasserstein distance to bound the perturbation between normal example and adversarial examples。
医療領域における時系列データセットに対する攻撃を実証的に評価した。
論文 参考訳(メタデータ) (2023-03-22T07:50:15Z) - Robust Estimation under the Wasserstein Distance [27.382258439576606]
$n$のサンプルが与えられたとき、その中の$varepsilon n$は逆向きに破損するので、最小のワッサーシュタイン誤差を持つ$mu$の見積もりを求める。
我々は、POTの新たな構造特性を証明し、それを用いて、部分ワッサーシュタイン距離下のMDEが極小最大最適ロバスト推定リスクを達成することを示す。
一般的なWGAN(Warsserstein Generative Adversarial Network)フレームワークは、カントロビッチ双対性を介してWasserstein MDEを実装しているため、当社のペナル化双対は、汚染されたデータセットによる大規模生成モデリングを可能にする。
論文 参考訳(メタデータ) (2023-02-02T17:20:25Z) - Approximative Algorithms for Multi-Marginal Optimal Transport and
Free-Support Wasserstein Barycenters [0.0]
N$離散確率測度に対する2乗ユークリッドコストで, マルチマルジナル最適輸送(MOT)の解を近似する2つのアルゴリズムを提案する。
高速で、メモリ効率が高く、実装も簡単で、どのスパースOTソルバでもブラックボックスとして使用することができる。
論文 参考訳(メタデータ) (2022-02-02T10:59:54Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - On Projection Robust Optimal Transport: Sample Complexity and Model
Misspecification [101.0377583883137]
射影ロバスト(PR)OTは、2つの測度の間のOTコストを最大化するために、射影可能な$k$次元部分空間を選択する。
私たちの最初の貢献は、PRワッサーシュタイン距離のいくつかの基本的な統計的性質を確立することである。
次に、部分空間を最適化するのではなく平均化することにより、PRW距離の代替として積分PRワッサーシュタイン距離(IPRW)を提案する。
論文 参考訳(メタデータ) (2020-06-22T14:35:33Z) - Primal Wasserstein Imitation Learning [44.87651595571687]
概念的にシンプルなアルゴリズムに基づく新しいImitation Learning (IL)法: Primal Wasserstein Imitation Learning (PWIL)を提案する。
エージェントインタラクションや環境とのエキスパートインタラクションの観点から,MuJoCoドメインのさまざまな連続制御タスクに関する専門家の振る舞いを,サンプルで効率的に再現できることが示される。
論文 参考訳(メタデータ) (2020-06-08T15:30:11Z) - Fast and Robust Comparison of Probability Measures in Heterogeneous
Spaces [62.35667646858558]
本稿では, アンカー・エナジー (AE) とアンカー・ワッサースタイン (AW) 距離を紹介する。
我々の主な貢献は、素案実装が立方体となる対数四重項時間でAEを正確に計算するスイープラインアルゴリズムを提案することである。
AE と AW は,一般的な GW 近似の計算コストのごく一部において,様々な実験環境において良好に動作することを示す。
論文 参考訳(メタデータ) (2020-02-05T03:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。