論文の概要: Imitation Learning with Sinkhorn Distances
- arxiv url: http://arxiv.org/abs/2008.09167v2
- Date: Sat, 2 Jul 2022 17:16:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 03:13:10.044409
- Title: Imitation Learning with Sinkhorn Distances
- Title(参考訳): シンクホーン距離による模倣学習
- Authors: Georgios Papagiannis and Yunpeng Li
- Abstract要約: 本研究では, 占領対策間のシンクホーン距離の最小化として, 模倣学習を定式化して, トラクタブルソリューションを提案する。
提案手法は,多くの MuJoCo 実験において,報奨距離とシンクホーン距離距離の両方を用いて評価する。
- 参考スコア(独自算出の注目度): 12.161649672131286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning algorithms have been interpreted as variants of divergence
minimization problems. The ability to compare occupancy measures between
experts and learners is crucial in their effectiveness in learning from
demonstrations. In this paper, we present tractable solutions by formulating
imitation learning as minimization of the Sinkhorn distance between occupancy
measures. The formulation combines the valuable properties of optimal transport
metrics in comparing non-overlapping distributions with a cosine distance cost
defined in an adversarially learned feature space. This leads to a highly
discriminative critic network and optimal transport plan that subsequently
guide imitation learning. We evaluate the proposed approach using both the
reward metric and the Sinkhorn distance metric on a number of MuJoCo
experiments. For the implementation and reproducing results please refer to the
following repository https://github.com/gpapagiannis/sinkhorn-imitation.
- Abstract(参考訳): 模倣学習アルゴリズムは、発散最小化問題の変種として解釈されている。
専門家と学習者の占有度を比較する能力は、実演から学ぶ上での有効性に不可欠である。
本稿では,占領対策間のシンクホーン距離の最小化として,模倣学習を定式化したトラクタブルソリューションを提案する。
この定式化は、非重複分布と敵対的に学習された特徴空間で定義されるコサイン距離コストを比較する際の最適な輸送指標の貴重な特性を組み合わせる。
これは非常に差別的な批判ネットワークと、その後模倣学習を導く最適な輸送計画につながる。
提案手法は,多くの MuJoCo 実験において,報奨距離とシンクホーン距離の両方を用いて評価する。
実装と再現結果については、以下のリポジトリ https://github.com/gpapagiannis/sinkhorn-imitationを参照してください。
関連論文リスト
- Kolmogorov-Smirnov GAN [52.36633001046723]
我々は、KSGAN(Kolmogorov-Smirnov Generative Adversarial Network)という新しい深層生成モデルを提案する。
既存のアプローチとは異なり、KSGANはKS距離の最小化として学習プロセスを定式化している。
論文 参考訳(メタデータ) (2024-06-28T14:30:14Z) - Sinkhorn Distance Minimization for Knowledge Distillation [97.64216712016571]
知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
論文 参考訳(メタデータ) (2024-02-27T01:13:58Z) - Histopathology Image Classification using Deep Manifold Contrastive
Learning [8.590026259176806]
本稿では,特徴間の測地的距離を,病理組織学全体のスライド画像分類の類似度指標として活用する,新しいコントラスト学習の拡張を提案する。
その結果,提案手法は最先端のコサイン距離に基づくコントラスト学習法よりも優れていた。
論文 参考訳(メタデータ) (2023-06-26T07:02:07Z) - Contrastive Bayesian Analysis for Deep Metric Learning [30.21464199249958]
特徴的類似性によって条件付けられた画像ラベルの後方確率を特徴付け,モデル化するために,コントラッシブなベイズ解析を開発した。
この対照的なベイズ解析は、深い計量学習のための新しい損失関数をもたらす。
実験結果とアブレーション実験により,提案手法は深層学習の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-10-10T02:24:21Z) - Neural Bregman Divergences for Distance Learning [60.375385370556145]
本稿では,入力凸ニューラルネットワークを用いて任意のブレグマン分岐を微分可能な方法で学習するための新しいアプローチを提案する。
提案手法は,新しいタスクと以前に研究されたタスクのセットにおいて,より忠実に相違点を学習することを示す。
我々のテストはさらに、既知の非対称なタスクにまで拡張するが、Bregmanでないタスクでは、不特定性にもかかわらず、我々のメソッドは競争的に機能する。
論文 参考訳(メタデータ) (2022-06-09T20:53:15Z) - Embedding Transfer with Label Relaxation for Improved Metric Learning [43.94511888670419]
本稿では,学習した埋め込みモデルの知識を他へ伝達する,新しい埋め込み変換手法を提案する。
本手法は,ソース埋め込み空間のサンプル間の類似性を知識として活用し,対象埋め込みモデルの学習に用いる損失を伝達する。
論文 参考訳(メタデータ) (2021-03-27T13:35:03Z) - Robust Imitation Learning from Noisy Demonstrations [81.67837507534001]
我々は,対称的損失を伴う分類リスクを最適化することにより,ロバストな模倣学習を実現することができることを示す。
擬似ラベルと協調学習を効果的に組み合わせた新しい模倣学習法を提案する。
連続制御ベンチマークによる実験結果から,本手法は最先端手法よりも頑健であることがわかった。
論文 参考訳(メタデータ) (2020-10-20T10:41:37Z) - Provably Robust Metric Learning [98.50580215125142]
既存のメトリクス学習アルゴリズムは、ユークリッド距離よりもロバストなメトリクスをもたらすことを示す。
対向摂動に対して頑健なマハラノビス距離を求めるための新しい距離学習アルゴリズムを提案する。
実験結果から,提案アルゴリズムは証明済みの堅牢な誤りと経験的堅牢な誤りの両方を改善した。
論文 参考訳(メタデータ) (2020-06-12T09:17:08Z) - Towards Certified Robustness of Distance Metric Learning [53.96113074344632]
我々は,距離学習アルゴリズムの一般化とロバスト性を改善するために,入力空間に逆のマージンを付与することを提唱する。
アルゴリズム的ロバスト性の理論手法を用いることにより,拡張マージンは一般化能力に有益であることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:51:53Z) - An end-to-end approach for the verification problem: learning the right
distance [15.553424028461885]
パラメトリックな擬似距離を導入し、エンコーダと共同で学習することで、メトリック学習の設定を強化する。
まず、仮説テストに使用できる確率比を近似して示す。
提案手法では,実際の距離を持つメートル法学習に比べて,学習の簡易化が図られている。
論文 参考訳(メタデータ) (2020-02-21T18:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。