論文の概要: Improving CLIP Adaptation by Breaking Tail Alignment for Source-Free Cross-Domain Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2605.29776v1
- Date: Thu, 28 May 2026 11:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.199836
- Title: Improving CLIP Adaptation by Breaking Tail Alignment for Source-Free Cross-Domain Few-Shot Learning
- Title(参考訳): ソースレスクロスドメインFew-Shot学習におけるタイルアライメントの分割によるCLIP適応の改善
- Authors: Shuai Yi, Yixiong Zou, Yuhua Li, Ruixuan Li,
- Abstract要約: 本稿では,CLIPをベースとしたCDFSLタスクにおけるターゲット領域の少数ショットファインタニングに焦点を当てた。
特定の低相似画像トークンを積極的に押し出すと、ターゲットドメインのパフォーマンスが向上する。
そこで我々は,CLIPの新しい微調整戦略であるAdaptive Tail-Head Alignment (ATHA)を提案する。
- 参考スコア(独自算出の注目度): 25.20062959668559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) such as CLIP demonstrate strong zero-shot generalization, but their performance significantly degrades in cross-domain scenarios with scarce target-domain training data (Cross-Domain Few-Shot Learning, CDFSL). In this paper, we focus on the target-domain few-shot finetuning in the CLIP-based CDFSL task. Prevailing finetuning paradigms uniformly align all image patch tokens with their corresponding textual embeddings. However, we find a counterintuitive phenomenon: actively pushing away certain low-similarity image tokens, termed "tail tokens", from their textual embeddings consistently improves target-domain performance. We delve into this phenomenon and provide a novel interpretation: under great domain shifts and scarce training data, the model can hardly extract semantic information from visual inputs; therefore, the common belief of alignment is valid only for tokens already containing sufficient semantic information; for tail tokens, forcing the alignment would lead to excessive overfitting to the scarce training, while breaking the alignment is more useful. Motivated by this, we propose Adaptive Tail-Head Alignment (ATHA), a novel fine-tuning strategy for CLIP that transforms the conventional uniform alignment paradigm to an adaptive alignment paradigm, with both alignment strengthening and weakening. Extensive experiments on four challenging CDFSL benchmarks validate our state-of-the-art performance. Our code is available at https://github.com/shuaiyi308/ATHA.
- Abstract(参考訳): CLIPのようなビジョンランゲージモデル(VLM)は、ゼロショットの強力な一般化を示すが、ターゲットドメイントレーニングデータが少ないクロスドメインシナリオ(Cross-Domain Few-Shot Learning, CDFSL)では、その性能は著しく低下する。
本稿では,CLIPをベースとしたCDFSLタスクにおいて,ターゲット領域の複数ショットの微調整に焦点をあてる。
一般的なファインタニングパラダイムは、すべてのイメージパッチトークンと対応するテキスト埋め込みを均一に整列する。
しかし、テキスト埋め込みから「テールトークン」と呼ばれるある種の低相似画像トークンを積極的に押し出すと、目標ドメインの性能が一貫して向上する。
膨大なドメインシフトと不足したトレーニングデータの下で、モデルは視覚入力から意味情報を抽出することができないため、アライメントの一般的な信念は、十分なセマンティック情報を含むトークンに対してのみ有効であり、テールトークンでは、アライメントを強制すると不足したトレーニングに過度に過度に適合し、アライメントを壊すことはより有用である。
そこで我々は,従来の一様アライメントパラダイムを適応アライメントパラダイムに変換するCLIPの新しい微調整戦略であるAdaptive Tail-Head Alignment (ATHA)を提案する。
挑戦的な4つのCDFSLベンチマークの大規模な実験により、我々の最先端の性能が検証された。
私たちのコードはhttps://github.com/shuaiyi308/ATHAで公開されています。
関連論文リスト
- Addressing Exacerbated Attention Sink for Source-Free Cross-Domain Few-Shot Learning [25.20062959668559]
Cross-Domain Few-Shot Learningは、ソースドメイン情報を少ないトレーニングデータでターゲットドメインに転送することができる。
標準のターゲットドメイン数発の微調整は注意シンク問題を悪化させ、クラス間での識別性が低下する。
本稿では,ターゲットドメインの微調整において,ターゲットドメインクラスとの関係に応じて動的に再重み付けを行う手法を提案する。
論文 参考訳(メタデータ) (2026-05-25T12:49:15Z) - Unlocking Patch-Level Features for CLIP-Based Class-Incremental Learning [13.950318836859731]
CLIのためのSPA(Semantic-Guided Patch-level Alignment)を提案する。
各クラスに対して、まず代表的で多様な視覚サンプルを作成し、それらをGPT-5に供給する。
これらの記述は、識別的パッチレベルの視覚的特徴の選択を導くために使用される。
論文 参考訳(メタデータ) (2026-05-13T17:56:23Z) - Reviving In-domain Fine-tuning Methods for Source-Free Cross-domain Few-shot Learning [19.4465469479799]
Cross-Domain Few-Shot Learningは、大規模な事前訓練されたモデルを、限られたサンプルを持つ特定のターゲットドメインに適応することを目的としている。
ドメイン内のシナリオとは対照的に、アダプタベースのメソッドはプロンプトベースのメソッドよりも一貫して優れています。
本稿では,アダプタとプロンプトを併用したアテンション修正フレームワークSemantic Probeを提案する。
論文 参考訳(メタデータ) (2026-05-12T07:20:23Z) - Finetune Like You Pretrain: Boosting Zero-shot Adversarial Robustness in Vision-language Models [89.0460992131069]
本稿では,CLIPのプレトレーニングプロセスのトレーニングレシピに従うAdvFLYPを提案する。
具体的には、AdvFLYPは、Webから収集された画像とテキストのペアに基づいて生成された敵画像とCLIPを微調整し、対照的な損失によって対応するテキストとマッチングする。
また,ロジットレベルの正規化条件と特徴レベルの正規化条件は,それぞれ堅牢性とクリーンな精度に有益であることを示す。
論文 参考訳(メタデータ) (2026-04-13T14:54:25Z) - Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。
私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。
実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-31T09:42:42Z) - One Last Attention for Your Vision-Language Model [42.872184600248914]
微調整中に最終的な融合表現を明示的に活用するための textbfRational textbfAdaptaion (RAda) を提案する。
RAdaは、VLMの端に取り付けられた軽量の注意層から得られた学習マスクを用いて、有理行列の各要素の寄与を動的に校正する。
実験の結果、RADAは汎用的な微調整技術として機能し、最小限のコードでベースラインを改善し、ほとんどの設定で現行のアートと互換性のあるパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-21T10:35:32Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。