論文の概要: CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention
- arxiv url: http://arxiv.org/abs/2209.14169v1
- Date: Wed, 28 Sep 2022 15:22:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 16:29:44.951772
- Title: CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention
- Title(参考訳): CALIP:パラメータフリー注意によるCLIPのゼロショット向上
- Authors: Ziyu Guo, Renrui Zhang, Longtian Qiu, Xianzheng Ma, Xupeng Miao,
Xuming He, Bin Cui
- Abstract要約: コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
- 参考スコア(独自算出の注目度): 31.84299688413136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has been shown to learn visual
representations with great transferability, which achieves promising accuracy
for zero-shot classification. To further improve its downstream performance,
existing works propose additional learnable modules upon CLIP and fine-tune
them by few-shot training sets. However, the resulting extra training cost and
data requirement severely hinder the efficiency for model deployment and
knowledge transfer. In this paper, we introduce a free-lunch enhancement
method, CALIP, to boost CLIP's zero-shot performance via a parameter-free
Attention module. Specifically, we guide visual and textual representations to
interact with each other and explore cross-modal informative features via
attention. As the pre-training has largely reduced the embedding distances
between two modalities, we discard all learnable parameters in the attention
and bidirectionally update the multi-modal features, enabling the whole process
to be parameter-free and training-free. In this way, the images are blended
with textual-aware signals and the text representations become visual-guided
for better adaptive zero-shot alignment. We evaluate CALIP on various
benchmarks of 14 datasets for both 2D image and 3D point cloud few-shot
classification, showing consistent zero-shot performance improvement over CLIP.
Based on that, we further insert a small number of linear layers in CALIP's
attention module and verify our robustness under the few-shot settings, which
also achieves leading performance compared to existing methods. Those extensive
experiments demonstrate the superiority of our approach for efficient
enhancement of CLIP.
- Abstract(参考訳): コントラスト言語-画像事前学習 (CLIP) は、ゼロショット分類において有望な精度を達成し、大きな伝達可能性を持つ視覚表現を学習することが示されている。
下流のパフォーマンスをさらに改善するため、既存の作業では、CLIP上で学習可能な追加モジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
しかし、結果として生じる追加のトレーニングコストとデータ要求は、モデルのデプロイと知識転送の効率を著しく阻害する。
本稿では,パラメータフリーアテンションモジュールを用いて,CLIPのゼロショット性能を向上させるフリーランチ拡張手法CALIPを提案する。
具体的には、視覚表現とテキスト表現を相互に相互作用させ、注意を通してクロスモーダルな情報的特徴を探索する。
事前学習は2つのモード間の埋め込み距離を大幅に削減したので、注意点における学習可能なパラメータをすべて排除し、マルチモーダル特徴を双方向に更新することで、プロセス全体をパラメータフリーかつトレーニングフリーにすることができる。
このように、画像はテキスト認識信号と混合され、テキスト表現はより適応的なゼロショットアライメントのために視覚誘導される。
CALIPを2Dイメージと3Dポイントクラウドの両方で14のデータセットのベンチマークで評価し,CLIPよりも一貫したゼロショット性能向上を示した。
そこで我々は,CALIPのアテンションモジュールに少数の線形層を挿入し,いくつかの設定でロバスト性を検証する。
これらの実験は,CLIPの効率向上に向けたアプローチの優位性を示すものである。
関連論文リスト
- FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance [7.041364616661048]
Foveal-Attention CLIP (FALIP) は、多頭部自己注意モジュールに葉の注意マスクを挿入することにより、CLIPの注意を調節する。
FALIPは、表現理解、画像分類、3Dポイントクラウド認識などのタスクにおいて、CLIPゼロショットのパフォーマンスを効果的に向上する。
論文 参考訳(メタデータ) (2024-07-08T03:23:13Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting [111.49781716597984]
本稿では,教師付きおよびゼロショット性能のバランスをとるためのマルチモーダル・プロンプト学習手法を提案する。
Kinetics-600, HMDB51, UCF101では, 教師付き環境での競争力を維持しながら, 最先端のゼロショット性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-06T18:00:04Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。