論文の概要: Domain Aligned CLIP for Few-shot Classification
- arxiv url: http://arxiv.org/abs/2311.09191v1
- Date: Wed, 15 Nov 2023 18:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 14:42:06.802666
- Title: Domain Aligned CLIP for Few-shot Classification
- Title(参考訳): ファウショット分類のためのドメインアライメントCLIP
- Authors: Muhammad Waleed Gondal, Jochen Gast, Inigo Alonso Ruiz, Richard
Droste, Tommaso Macri, Suren Kumar, Luitpold Staudigl
- Abstract要約: Domain Aligned CLIP (DAC) は、メインモデルを微調整することなく、ターゲット分布上のモーダル内(イメージ)とモーダル間アライメントの両方を改善する。
画像分類におけるDACの有効性について検討し,16ショット分類の精度を約2.3%向上させるとともに,11種類の画像分類タスクのベンチマークを行った。
- 参考スコア(独自算出の注目度): 3.5326413171911555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language representation learning models like CLIP have
demonstrated impressive performance for zero-shot transfer to downstream tasks
while largely benefiting from inter-modal (image-text) alignment via
contrastive objectives. This downstream performance can further be enhanced by
full-scale fine-tuning which is often compute intensive, requires large
labelled data, and can reduce out-of-distribution (OOD) robustness.
Furthermore, sole reliance on inter-modal alignment might overlook the rich
information embedded within each individual modality. In this work, we
introduce a sample-efficient domain adaptation strategy for CLIP, termed Domain
Aligned CLIP (DAC), which improves both intra-modal (image-image) and
inter-modal alignment on target distributions without fine-tuning the main
model. For intra-modal alignment, we introduce a lightweight adapter that is
specifically trained with an intra-modal contrastive objective. To improve
inter-modal alignment, we introduce a simple framework to modulate the
precomputed class text embeddings. The proposed few-shot fine-tuning framework
is computationally efficient, robust to distribution shifts, and does not alter
CLIP's parameters. We study the effectiveness of DAC by benchmarking on 11
widely used image classification tasks with consistent improvements in 16-shot
classification upon strong baselines by about 2.3% and demonstrate competitive
performance on 4 OOD robustness benchmarks.
- Abstract(参考訳): CLIPのような大規模な視覚言語表現学習モデルは、対照的な目的を通じてモーダル間(画像テキスト)アライメントの恩恵を受けながら、下流タスクへのゼロショット転送の素晴らしいパフォーマンスを示している。
このダウンストリーム性能は、しばしば計算集約され、大きなラベル付きデータを必要とするフルスケールの微調整によってさらに向上し、アウト・オブ・ディストリビューション(OOD)の堅牢性を低減することができる。
さらに、モーダル間のアライメントへの唯一の依存は、個々のモーダル内に埋め込まれた豊富な情報を見落としてしまう可能性がある。
本研究では,主モデルに微調整を加えることなく,対象分布のモード内アライメント(イメージ画像)とモード間アライメントを改良した,dac(domain aligned clip)というクリップのサンプル効率の高いドメイン適応戦略を提案する。
モーダル内アライメントには、モーダル内コントラスト目的で特別に訓練された軽量アダプタを導入する。
モーダル間のアライメントを改善するために,事前計算されたクラステキスト埋め込みを変調するシンプルなフレームワークを提案する。
提案するマイナショット微調整フレームワークは計算効率が高く,分散シフトに頑健であり,クリップのパラメータは変更しない。
我々は,16ショットの分類を強いベースラインで一貫した改良を施した11種類の画像分類タスクにおいて,DACの有効性を約2.3%向上させ,OODロバストネスベンチマーク上での競合性能を実証した。
関連論文リスト
- CLIP Adaptation by Intra-modal Overlap Reduction [1.2277343096128712]
画像空間におけるモーダル内重なりを埋め込み表現の観点から解析する。
Google Open Imagesデータセットからサンプルのジェネリックセットに軽量アダプタをトレーニングします。
論文 参考訳(メタデータ) (2024-09-17T16:40:58Z) - Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger [30.758184720183106]
我々は厳密な1対1の制約を緩和し、ソフトなクロスモーダルアライメントを実現する新しいアプローチであるSoftCLIPを提案する。
特に、ImageNetゼロショット分類タスクでは、事前トレーニングデータセットとしてCC3M/CC12Mを使用して、SoftCLIPは6.8%/7.2%というトップ1の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-30T17:27:22Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Multi-level Consistency Learning for Semi-supervised Domain Adaptation [85.90600060675632]
半教師付きドメイン適応(SSDA)は、完全にラベル付けされたソースドメインから学習した知識をわずかにラベル付けされたターゲットドメインに適用することを目的としている。
SSDAのための多レベル一貫性学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-09T06:41:18Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。