論文の概要: Unsupervised Representation Learning by Balanced Self Attention Matching
- arxiv url: http://arxiv.org/abs/2408.02014v1
- Date: Sun, 4 Aug 2024 12:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 15:35:21.844024
- Title: Unsupervised Representation Learning by Balanced Self Attention Matching
- Title(参考訳): バランス付き自己注意マッチングによる教師なし表現学習
- Authors: Daniel Shalam, Simon Korman,
- Abstract要約: 本稿では,BAMと呼ばれる画像特徴を埋め込む自己教師型手法を提案する。
我々は,これらの分布とグローバルな均衡とエントロピー正規化バージョンに一致する損失を最小化することにより,豊かな表現と特徴の崩壊を回避する。
半教師付きベンチマークと移動学習ベンチマークの両方において,先行手法と競合する性能を示す。
- 参考スコア(独自算出の注目度): 2.3020018305241337
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many leading self-supervised methods for unsupervised representation learning, in particular those for embedding image features, are built on variants of the instance discrimination task, whose optimization is known to be prone to instabilities that can lead to feature collapse. Different techniques have been devised to circumvent this issue, including the use of negative pairs with different contrastive losses, the use of external memory banks, and breaking of symmetry by using separate encoding networks with possibly different structures. Our method, termed BAM, rather than directly matching features of different views (augmentations) of input images, is based on matching their self-attention vectors, which are the distributions of similarities to the entire set of augmented images of a batch. We obtain rich representations and avoid feature collapse by minimizing a loss that matches these distributions to their globally balanced and entropy regularized version, which is obtained through a simple self-optimal-transport computation. We ablate and verify our method through a wide set of experiments that show competitive performance with leading methods on both semi-supervised and transfer-learning benchmarks. Our implementation and pre-trained models are available at github.com/DanielShalam/BAM .
- Abstract(参考訳): 教師なし表現学習(特に画像特徴の埋め込み)のための多くの指導的自己指導手法は、特徴の崩壊につながる不安定性に起因した最適化が知られているインスタンス識別タスクの変種に基づいて構築されている。
異なる対照的な損失を持つ負対の使用、外部メモリバンクの使用、異なる構造を持つ別の符号化ネットワークを使用することによる対称性の破壊など、この問題を回避するために様々な技術が考案されている。
入力画像の異なるビュー(拡張)の特徴を直接マッチングするのではなく、BAMと呼ばれる手法は、バッチの付加画像全体の類似性の分布である自己アテンションベクトルのマッチングに基づいている。
我々は,これらの分布とグローバルなバランスとエントロピーの正規化バージョンに一致する損失を最小化することにより,豊かな表現と特徴の崩壊を回避し,簡単な自己最適化-輸送計算によって得られる。
我々は,半教師付きベンチマークと移動学習ベンチマークの両方において,先行する手法と競合する性能を示す幅広い実験を通じて,提案手法を改良し,検証する。
我々の実装と事前訓練されたモデルはgithub.com/DanielShalam/BAMで利用可能です。
関連論文リスト
- CLIP Adaptation by Intra-modal Overlap Reduction [1.2277343096128712]
画像空間におけるモーダル内重なりを埋め込み表現の観点から解析する。
Google Open Imagesデータセットからサンプルのジェネリックセットに軽量アダプタをトレーニングします。
論文 参考訳(メタデータ) (2024-09-17T16:40:58Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Unsupervised Domain-Specific Deblurring using Scale-Specific Attention [0.25797036386508543]
スケール適応型アテンションモジュール (SAAM) を用いた教師なしドメイン固有のデブロアリングを提案する。
我々のネットワークはトレーニングのために教師付きペアを必要とせず、デブロアリング機構は主に敵の損失によって導かれる。
異なるアブレーション研究により、我々の粗粒度機構は、教師なしモデルよりも優れており、SAAMは文学で使用される注意モデルと比較して、より優れた参画が可能であることが示されている。
論文 参考訳(メタデータ) (2021-12-12T07:47:45Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Self-Supervised Learning by Estimating Twin Class Distributions [26.7828253129684]
本稿では,大規模未ラベルデータセットをエンドツーエンドに分類し,自己教師付き表現学習手法TWISTを提案する。
2つの拡張画像の2つのクラス分布を生成するために、ソフトマックス演算で終了するシマセネットワークを用いる。
具体的には、各サンプルの分布のエントロピーを最小化し、各サンプルのクラス予測を行い、平均分布のエントロピーを最大化し、異なるサンプルの予測を多様化させる。
論文 参考訳(メタデータ) (2021-10-14T14:39:39Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Weakly supervised segmentation with cross-modality equivariant
constraints [7.757293476741071]
弱い教師付き学習は、セマンティックセグメンテーションにおける大きなラベル付きデータセットの必要性を軽減するための魅力的な代替手段として登場した。
本稿では,マルチモーダル画像シナリオにおける自己スーパービジョンを活用した新しい学習戦略を提案する。
私たちのアプローチは、同じ学習条件下で関連する最近の文学を上回ります。
論文 参考訳(メタデータ) (2021-04-06T13:14:20Z) - Unsupervised Learning of Visual Features by Contrasting Cluster
Assignments [57.33699905852397]
ペア比較の計算を必要とせず,コントラスト的手法を生かしたオンラインアルゴリズムSwaVを提案する。
本手法では,クラスタ割り当て間の一貫性を保ちながら,同時にデータをクラスタ化する。
我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
論文 参考訳(メタデータ) (2020-06-17T14:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。