論文の概要: An Empirical Study of Self-supervised Learning with Wasserstein Distance
- arxiv url: http://arxiv.org/abs/2310.10143v2
- Date: Mon, 5 Feb 2024 21:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 20:02:44.998515
- Title: An Empirical Study of Self-supervised Learning with Wasserstein Distance
- Title(参考訳): ワッサースタイン距離を用いた自己教師型学習の実証的研究
- Authors: Makoto Yamada and Yuki Takezawa and Guillaume Houry and Kira Michaela
Dusterwald and Deborah Sulem and Han Zhao and Yao-Hung Hubert Tsai
- Abstract要約: 木構造上の1-ワッサーシュタイン距離を利用した自己教師学習(SSL)の問題について検討する。
ソフトマックス関数とTWDの単純な組み合わせにより、標準のSimCLRよりもはるかに低い結果が得られることがわかった。
TWDと確率モデルの適切な組み合わせはコサイン類似性に基づく表現学習より優れていることを示す。
- 参考スコア(独自算出の注目度): 25.34234972910592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we delve into the problem of self-supervised learning (SSL)
utilizing the 1-Wasserstein distance on a tree structure (a.k.a.,
Tree-Wasserstein distance (TWD)), where TWD is defined as the L1 distance
between two tree-embedded vectors. In SSL methods, the cosine similarity is
often utilized as an objective function; however, it has not been well studied
when utilizing the Wasserstein distance. Training the Wasserstein distance is
numerically challenging. Thus, this study empirically investigates a strategy
for optimizing the SSL with the Wasserstein distance and finds a stable
training procedure. More specifically, we evaluate the combination of two types
of TWD (total variation and ClusterTree) and several probability models,
including the softmax function, the ArcFace probability model, and simplicial
embedding. We propose a simple yet effective Jeffrey divergence-based
regularization method to stabilize optimization. Through empirical experiments
on STL10, CIFAR10, CIFAR100, and SVHN, we find that a simple combination of the
softmax function and TWD can obtain significantly lower results than the
standard SimCLR. Moreover, a simple combination of TWD and SimSiam fails to
train the model. We find that the model performance depends on the combination
of TWD and probability model, and that the Jeffrey divergence regularization
helps in model training. Finally, we show that the appropriate combination of
the TWD and probability model outperforms cosine similarity-based
representation learning.
- Abstract(参考訳): 本研究では,木構造上の1-ワッサーシュタイン距離(木-ワッサースタイン距離(TWD))を利用して,TWDを2つの木埋め込みベクトル間のL1距離として定義する自己教師付き学習(SSL)問題について検討する。
SSL法では、コサイン類似性はしばしば目的関数として利用されるが、ワッサーシュタイン距離を利用する際にはあまり研究されていない。
ワッサースタイン距離の訓練は数値的に難しい。
そこで本研究では,ワッサーシュタイン距離でSSLを最適化する戦略を実証的に検討し,安定した訓練方法を見出した。
具体的には,2種類のTWD(Total variationとClusterTree)と,ソフトマックス関数,ArcFace確率モデル,単純な埋め込みを含むいくつかの確率モデルの組み合わせを評価する。
最適化を安定させるために, 単純で効果的なジェフリー発散に基づく正規化法を提案する。
STL10, CIFAR10, CIFAR100, SVHNの実証実験により, ソフトマックス関数とTWDの簡単な組み合わせにより, 標準SimCLRよりもはるかに低い結果が得られることがわかった。
さらに、TWDとSimSiamの単純な組み合わせはモデルのトレーニングに失敗する。
モデル性能はTWDと確率モデルの組み合わせに依存し,ジェフリー発散正規化はモデルの訓練に有効であることがわかった。
最後に、TWDと確率モデルの適切な組み合わせはコサイン類似性に基づく表現学習より優れていることを示す。
関連論文リスト
- Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Accurate deep learning sub-grid scale models for large eddy simulations [0.0]
大型渦流シミュレーション(LES)のために開発されたサブグリッドスケール(SGS)乱流モデルについて述べる。
彼らの開発には、物理インフォームド・ロバストで効率的なDeep Learning (DL)アルゴリズムの定式化が必要だった。
2つの摩擦レイノルズ数における正準流路流れの直接シミュレーションによるデータの明示的なフィルタリングは、訓練と試験のための正確なデータを提供した。
論文 参考訳(メタデータ) (2023-07-19T15:30:06Z) - Git Re-Basin: Merging Models modulo Permutation Symmetries [3.5450828190071655]
提案手法は,大規模ネットワークに適合する簡単なアルゴリズムを実例で示す。
我々は、独立に訓練されたモデル間のゼロモード接続の最初のデモ(私たちの知る限り)を実演する。
また、線形モード接続仮説の欠点についても論じる。
論文 参考訳(メタデータ) (2022-09-11T10:44:27Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z) - Learning High Dimensional Wasserstein Geodesics [55.086626708837635]
高次元の2つの確率分布の間のワッサーシュタイン測地線を計算するための新しい定式化と学習戦略を提案する。
ラグランジュ乗算器の手法を最適輸送(OT)問題の動的定式化に適用することにより、サドル点がワッサーシュタイン測地線であるミニマックス問題を導出する。
次に、深層ニューラルネットワークによる関数のパラメータ化を行い、トレーニングのためのサンプルベースの双方向学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-02-05T04:25:28Z) - Sinkhorn Natural Gradient for Generative Models [125.89871274202439]
本研究では,シンクホーンの発散による確率空間上の最も急降下法として機能するシンクホーン自然勾配(SiNG)アルゴリズムを提案する。
本稿では,SiNG の主要成分であるシンクホーン情報行列 (SIM) が明示的な表現を持ち,対数的スケールの複雑さを正確に評価できることを示す。
本実験では,SiNGと最先端のSGD型解法を定量的に比較し,その有効性と有効性を示す。
論文 参考訳(メタデータ) (2020-11-09T02:51:17Z) - SODEN: A Scalable Continuous-Time Survival Model through Ordinary
Differential Equation Networks [14.564168076456822]
本稿では、ニューラルネットワークとスケーラブルな最適化アルゴリズムを用いた生存分析のためのフレキシブルモデルを提案する。
提案手法の有効性を,既存の最先端ディープラーニングサバイバル分析モデルと比較した。
論文 参考訳(メタデータ) (2020-08-19T19:11:25Z) - On Projection Robust Optimal Transport: Sample Complexity and Model
Misspecification [101.0377583883137]
射影ロバスト(PR)OTは、2つの測度の間のOTコストを最大化するために、射影可能な$k$次元部分空間を選択する。
私たちの最初の貢献は、PRワッサーシュタイン距離のいくつかの基本的な統計的性質を確立することである。
次に、部分空間を最適化するのではなく平均化することにより、PRW距離の代替として積分PRワッサーシュタイン距離(IPRW)を提案する。
論文 参考訳(メタデータ) (2020-06-22T14:35:33Z) - Projection Robust Wasserstein Distance and Riemannian Optimization [107.93250306339694]
プロジェクション・ソリッドスタイン(PRW)は、ワッサーシュタイン・プロジェクション(WPP)のロバストな変種であることを示す。
本稿では,PRW距離の計算への第一歩として,その理論と実データに関する実験の関連について述べる。
論文 参考訳(メタデータ) (2020-06-12T20:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。