論文の概要: Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances
- arxiv url: http://arxiv.org/abs/2312.14400v1
- Date: Fri, 22 Dec 2023 03:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 16:12:21.976606
- Title: Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances
- Title(参考訳): CLIPのバックボーン効果の解明 : 表現の相乗効果と変異
- Authors: Cristian Rodriguez-Opazo and Edison Marrese-Taylor and Ehsan
Abbasnejad and Hamed Damirchi and Ignacio M. Jara and Felipe Bravo-Marquez
and Anton van den Hengel
- Abstract要約: コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
- 参考スコア(独自算出の注目度): 49.631908848868505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language-Image Pretraining (CLIP) stands out as a prominent
method for image representation learning. Various neural architectures,
spanning Transformer-based models like Vision Transformers (ViTs) to
Convolutional Networks (ConvNets) like ResNets, are trained with CLIP and serve
as universal backbones across diverse vision tasks. Despite utilizing the same
data and training objectives, the effectiveness of representations learned by
these architectures raises a critical question. Our investigation explores the
differences in CLIP performance among these backbone architectures, revealing
significant disparities in their classifications. Notably, normalizing these
representations results in substantial performance variations. Our findings
showcase a remarkable possible synergy between backbone predictions that could
reach an improvement of over 20% through informed selection of the appropriate
backbone. Moreover, we propose a simple, yet effective approach to combine
predictions from multiple backbones, leading to a notable performance boost of
up to 6.34\%. We will release the code for reproducing the results.
- Abstract(参考訳): コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
ビジョントランスフォーマー(ViT)やResNetsのような畳み込みネットワーク(ConvNet)といったトランスフォーマーベースのモデルにまたがるさまざまなニューラルネットワークは、CLIPでトレーニングされ、さまざまなビジョンタスクにわたって普遍的なバックボーンとして機能する。
同じデータとトレーニング目標を活用しているにも関わらず、これらのアーキテクチャによって学習される表現の有効性は重要な疑問を提起する。
本研究は,これらのバックボーンアーキテクチャ間のクリップ性能の違いを調査し,その分類の相違を明らかにした。
特に、これらの表現の正規化は、かなりの性能変化をもたらす。
その結果,適切なバックボーンの選択により20%以上の改善が期待できるバックボーン予測の相乗効果が顕著に示された。
さらに,複数のバックボーンからの予測を組み合わせれば,最大6.34倍の性能向上が期待できる,単純かつ効果的な手法を提案する。
結果を再現するためのコードをリリースします。
関連論文リスト
- Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。
方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文 参考訳(メタデータ) (2024-05-27T12:59:35Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - SkelVIT: Consensus of Vision Transformers for a Lightweight
Skeleton-Based Action Recognition System [0.0]
骨格に基づく行動認識は、視点や照明の変化に対して堅牢であるため、多くの研究者の注目を集めている。
深層学習モデルの出現に伴い、擬似画像形式で骨格データを表現し、CNNを行動認識に適用することが非常に一般的になった。
近年、注意ネットワーク、特にトランスフォーマーは様々な視覚問題において有望な結果をもたらしている。
論文 参考訳(メタデータ) (2023-11-14T11:38:38Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Learning Target-aware Representation for Visual Tracking via Informative
Interactions [49.552877881662475]
トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。
提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
論文 参考訳(メタデータ) (2022-01-07T16:22:27Z) - Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual
Representations [9.6221436745451]
弱教師付き事前学習によって10億以上の画像を持つデータセットを生成する方法について述べる。
従来の畳み込みバックボーンを置き換えるためにTransformerを活用しています。
本稿では,大規模トランスフォーマーによる事前学習が,産業用コンピュータビジョンアプリケーションに多大な効果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-12T17:58:56Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。