論文の概要: CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP
- arxiv url: http://arxiv.org/abs/2110.11316v1
- Date: Thu, 21 Oct 2021 17:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 16:30:48.382765
- Title: CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP
- Title(参考訳): CLOOB:InfoLOOB Outperform CLIPによる最新のホップフィールドネットワーク
- Authors: Andreas F\"urst, Elisabeth Rumetshofer, Viet Tran, Hubert Ramsauer,
Fei Tang, Johannes Lehner, David Kreil, Michael Kopp, G\"unter Klambauer,
Angela Bitto-Nemling, Sepp Hochreiter
- Abstract要約: InfoNCEの目的と対照的な学習は、様々な自己指導型学習タスクにおいて非常に成功している。
本稿では,現代のホップフィールドネットワークがInfoLOOBの目的によって学習を促進する「コントラスト・リート・ワン・アウト・ブースト(CLOOB)」を紹介した。
CLOOBは、考慮されたすべてのアーキテクチャとデータセットにわたるゼロショット転送学習において、CLIPを一貫して上回る。
- 参考スコア(独自算出の注目度): 5.057831836268439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning with the InfoNCE objective is exceptionally successful
in various self-supervised learning tasks. Recently, the CLIP model yielded
impressive results on zero-shot transfer learning when using InfoNCE for
learning visual representations from natural language supervision. However,
InfoNCE as a lower bound on the mutual information has been shown to perform
poorly for high mutual information. In contrast, the InfoLOOB upper bound
(leave one out bound) works well for high mutual information but suffers from
large variance and instabilities. We introduce "Contrastive Leave One Out
Boost" (CLOOB), where modern Hopfield networks boost learning with the InfoLOOB
objective. Modern Hopfield networks replace the original embeddings by
retrieved embeddings in the InfoLOOB objective. The retrieved embeddings give
InfoLOOB two assets. Firstly, the retrieved embeddings stabilize InfoLOOB,
since they are less noisy and more similar to one another than the original
embeddings. Secondly, they are enriched by correlations, since the covariance
structure of embeddings is reinforced through retrievals. We compare CLOOB to
CLIP after learning on the Conceptual Captions and the YFCC dataset with
respect to their zero-shot transfer learning performance on other datasets.
CLOOB consistently outperforms CLIP at zero-shot transfer learning across all
considered architectures and datasets.
- Abstract(参考訳): インフォデンス目標との対比学習は、様々な自己監督学習タスクにおいて非常に成功している。
近年のCLIPモデルでは,自然言語の教師による視覚表現学習にInfoNCEを用いた場合,ゼロショット転送学習において顕著な結果が得られた。
しかし、相互情報に対する下限としてのインフォデンスは、高い相互情報に対して不十分であることが示されている。
対照的にInfoLOOB上界は高い相互情報に対してうまく機能するが、大きなばらつきと不安定さに悩まされる。
本稿では,現代のホップフィールドネットワークがInfoLOOBの目的によって学習を促進する「コントラスト・リート・ワン・アウト・ブースト(CLOOB)」を紹介した。
現代のホップフィールドネットワークは、InfoLOOBの目的に到達した埋め込みによって元の埋め込みを置き換える。
取得した埋め込みはInfoLOOBに2つの資産を与える。
第一に、検索された埋め込みは、元の埋め込みよりもノイズが少なく、互いに似ているため、インフォルーブを安定化する。
第2に、埋め込みの共分散構造は検索によって強化されるため、相関によって強化される。
CLOOBとCLIPは、他のデータセットでのゼロショット転送学習性能について、概念キャプションとYFCCデータセットについて学習した後、比較する。
CLOOBは、考慮されたすべてのアーキテクチャとデータセットにわたるゼロショット転送学習において、CLIPを一貫して上回る。
関連論文リスト
- What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - CoLeCLIP: Open-Domain Continual Learning via Joint Task Prompt and Vocabulary Learning [38.063942750061585]
本稿では,CLIPに基づくオープンドメインCLモデルを学習する新しいアプローチであるCoLeCLIPを紹介する。
CoLeCLIPは、タスクとクラスインクリメンタルな学習設定の両方で、オープンドメインCLの最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-15T12:28:21Z) - Bridged-GNN: Knowledge Bridge Learning for Effective Knowledge Transfer [65.42096702428347]
グラフニューラルネットワーク(GNN)は、隣接するノードから情報を集約する。
知識ブリッジ学習(KBL)は、対象ドメインに対する知識強化後部分布を学習する。
Bridged-GNNには、Bridged-Graphを構築するためのAdaptive Knowledge Retrievalモジュールと、Graph Knowledge Transferモジュールが含まれている。
論文 参考訳(メタデータ) (2023-08-18T12:14:51Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - ConStruct-VL: Data-Free Continual Structured VL Concepts Learning [57.86651057895222]
本稿では,Continuous Data-Free Structured VL Concepts Learning (ConStruct-VL)ベンチマークを紹介する。
本稿では,過去のタスクモデルから過去のタスクの逆リマインダーを生成するAdrial Pseudo-Replay (APR) の新たなアプローチによるデータフリー手法を提案する。
このアプローチは、いくつかのレベルのエクスペリエンス再生に適合しながら、すべてのデータフリーメソッドを最大7%上回ります。
論文 参考訳(メタデータ) (2022-11-17T18:57:03Z) - Effects of Auxiliary Knowledge on Continual Learning [16.84113206569365]
連続学習(CL)では、ニューラルネットワークは、時間とともに分布が変化するデータのストリームに基づいて訓練される。
既存のCLアプローチのほとんどは、獲得した知識を保存するソリューションを見つけることに重点を置いている。
モデルが新しいタスクを継続的に学習する必要があるため、タスク学習の後に改善する可能性のある現在の知識に焦点を合わせることも重要である、と我々は主張する。
論文 参考訳(メタデータ) (2022-06-03T14:31:59Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。