論文の概要: DINO as a von Mises-Fisher mixture model
- arxiv url: http://arxiv.org/abs/2405.10939v1
- Date: Fri, 17 May 2024 17:49:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 15:24:17.328525
- Title: DINO as a von Mises-Fisher mixture model
- Title(参考訳): von Mises-Fisher混合モデルとしてのDINO
- Authors: Hariprasath Govindarajan, Per Sidén, Jacob Roll, Fredrik Lindsten,
- Abstract要約: DINO は von Mises-Fisher 成分の混合モデルとして解釈できることを示す。
本稿では,クラスタ割り当て確率を計算する際に,適切な正規化定数を追加するDINO-vMFを提案する。
混合モデルのさらなる柔軟性は、画像表現の改善の観点から有益であることを示す。
- 参考スコア(独自算出の注目度): 15.524425102344784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-distillation methods using Siamese networks are popular for self-supervised pre-training. DINO is one such method based on a cross-entropy loss between $K$-dimensional probability vectors, obtained by applying a softmax function to the dot product between representations and learnt prototypes. Given the fact that the learned representations are $L^2$-normalized, we show that DINO and its derivatives, such as iBOT, can be interpreted as a mixture model of von Mises-Fisher components. With this interpretation, DINO assumes equal precision for all components when the prototypes are also $L^2$-normalized. Using this insight we propose DINO-vMF, that adds appropriate normalization constants when computing the cluster assignment probabilities. Unlike DINO, DINO-vMF is stable also for the larger ViT-Base model with unnormalized prototypes. We show that the added flexibility of the mixture model is beneficial in terms of better image representations. The DINO-vMF pre-trained model consistently performs better than DINO on a range of downstream tasks. We obtain similar improvements for iBOT-vMF vs iBOT and thereby show the relevance of our proposed modification also for other methods derived from DINO.
- Abstract(参考訳): シームズネットワークを用いた自己蒸留法は, 自己指導型事前学習に人気がある。
DINOは、表現と学習プロトタイプの間のドット積にソフトマックス関数を適用することで得られる、$K$次元確率ベクトル間のクロスエントロピー損失に基づく方法である。
学習された表現が$L^2$-正規化であるという事実から、DINOとその微分、例えばiBOTは、フォン・ミセス=フィッシャー成分の混合モデルとして解釈できることを示す。
この解釈により、DINOはプロトタイプが$L^2$-正規化されているとき、すべての成分に対して等しい精度を仮定する。
この知見を用いて、クラスタ割り当て確率を計算する際に、適切な正規化定数を追加するDINO-vMFを提案する。
DINOとは異なり、DINO-vMFは非正規化プロトタイプを備えた大型のViT-Baseモデルにも安定している。
混合モデルのさらなる柔軟性は、画像表現の改善の観点から有益であることを示す。
DINO-vMF事前訓練モデルは、下流タスクにおいて、DINOよりも一貫してパフォーマンスが良い。
また,iBOT-vMFとiBOTの類似した改良点が得られた。
関連論文リスト
- Diffusion models for probabilistic programming [56.47577824219207]
拡散モデル変分推論(DMVI)は確率型プログラミング言語(PPL)における自動近似推論手法である
DMVIは実装が容易で、例えば正規化フローを用いた変分推論の欠点を伴わずに、PPLでヘイズルフリー推論が可能であり、基礎となるニューラルネットワークモデルに制約を課さない。
論文 参考訳(メタデータ) (2023-11-01T12:17:05Z) - NPEFF: Non-Negative Per-Example Fisher Factorization [52.44573961263344]
エンド・ツー・エンドの微分可能モデルに容易に適用可能な,NPEFFと呼ばれる新しい解釈可能性手法を提案する。
我々はNPEFFが言語モデルと視覚モデルの実験を通して解釈可能なチューニングを持つことを実証した。
論文 参考訳(メタデータ) (2023-10-07T02:02:45Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - ELODI: Ensemble Logit Difference Inhibition for Positive-Congruent Training [110.52785254565518]
負のフリップ率(NFR)を減少させる既存の方法は、新しいモデルに古いモデルを模倣させたり、アンサンブルを使用したりすることで、全体的な精度を犠牲にしている。
我々は、NFRの低減におけるアンサンブルの役割を分析し、通常決定境界に近くない負のフリップを取り除くことを観察する。
本稿では,誤り率とNFRの両方でパラゴン性能を実現する分類システムを訓練するためのELODI(Ensemble Logit Difference Inhibition)を提案する。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - Latent Time Neural Ordinary Differential Equations [0.2538209532048866]
本研究では,NODE における不確実性をモデル化するための新しい手法を提案する。
また、各データポイントが終末時間に異なる後続分布を持つことができる適応遅延時間NODE(ALT-NODE)を提案する。
本研究では,合成画像と実世界の画像分類データを用いた実験により,不確実性とロバスト性をモデル化する手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-12-23T17:31:47Z) - Improving Robustness and Uncertainty Modelling in Neural Ordinary
Differential Equations [0.2538209532048866]
本研究では,NODE における不確実性をモデル化するための新しい手法を提案する。
また、各データポイントが終末時間に異なる後続分布を持つことができる適応遅延時間NODE(ALT-NODE)を提案する。
本研究では,合成画像と実世界の画像分類データを用いた実験により,不確実性とロバスト性をモデル化する手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-12-23T16:56:10Z) - Exponentially Tilted Gaussian Prior for Variational Autoencoder [3.52359746858894]
近年の研究では, この課題に対して確率的生成モデルが不十分であることが示されている。
変分オートエンコーダ(VAE)の指数傾斜ガウス事前分布を提案する。
本モデルでは,標準ガウスVAEよりクオリティの高い画像サンプルが得られた。
論文 参考訳(メタデータ) (2021-11-30T18:28:19Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Normalizing Flow based Hidden Markov Models for Classification of Speech
Phones with Explainability [25.543231171094384]
説明可能性を求めるため,逐次データ生成モデルを開発した。
我々は、現代のニューラルネットワーク(正規化フロー)と伝統的な生成モデル(隠れマルコフモデル - HMM)を組み合わせる。
提案した生成モデルは、データの可能性を計算することができ、従って、最大形分類法(ML)に直接適合する。
論文 参考訳(メタデータ) (2021-07-01T20:10:55Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。