論文の概要: Reviving In-domain Fine-tuning Methods for Source-Free Cross-domain Few-shot Learning
- arxiv url: http://arxiv.org/abs/2605.11659v1
- Date: Tue, 12 May 2026 07:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.659376
- Title: Reviving In-domain Fine-tuning Methods for Source-Free Cross-domain Few-shot Learning
- Title(参考訳): ソースフリークロスドメインFew-shot学習のためのドメイン内ファインチューニング手法の復活
- Authors: Yaze Zhao, Yicong Liu, Yixiong Zou, Yuhua Li, Ruixuan Li,
- Abstract要約: Cross-Domain Few-Shot Learningは、大規模な事前訓練されたモデルを、限られたサンプルを持つ特定のターゲットドメインに適応することを目的としている。
ドメイン内のシナリオとは対照的に、アダプタベースのメソッドはプロンプトベースのメソッドよりも一貫して優れています。
本稿では,アダプタとプロンプトを併用したアテンション修正フレームワークSemantic Probeを提案する。
- 参考スコア(独自算出の注目度): 19.4465469479799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-Domain Few-Shot Learning (CDFSL) aims to adapt large-scale pretrained models to specialized target domains with limited samples, yet the few-shot fine-tuning of vision-language models like CLIP remains underexplored. By establishing multiple fine-tuning baselines of CLIP for CDFSL, we find adapter-based methods (e.g., LoRA) consistently outperform prompt-based ones (e.g., MaPLe), contrary to in-domain scenarios. To make those effective in-domain methods competitive again in CDFSL, we analyze this phenomenon and discover LoRA's superiority stems from rectifying the collapsed attention of visual CLS token, enhancing modality alignment and class separation by focusing on text-related visual regions. Further, we find textual EOS token exhibit much better attention to visual samples, and CLIP's standard contrastive loss weakly constrains modality alignment. Based on these insights, we propose Semantic Probe, a plug-and-play attention rectification framework for both adapter- and prompt-based methods. Extensive experiments on four CDFSL benchmarks validate our rationale, achieving state-of-the-art performance and benefiting both fine-tuning paradigms. Codes will be released.
- Abstract(参考訳): Cross-Domain Few-Shot Learning (CDFSL)は、限られたサンプルを持つ特定のターゲットドメインに大規模な事前学習モデルを適用することを目的としている。
CDFSL用のCLIPの複数の微調整ベースラインを確立することで、ドメイン内のシナリオとは対照的に、アダプタベースのメソッド(例:LoRA)は、プロンプトベースのメソッド(例:MaPLe)よりも一貫して優れています。
CDFSLにおいて、これらの効果的なドメイン内手法を再び競合させるため、本現象を分析し、LoRAの優位性は、視覚的CLSトークンの崩壊した注意を是正し、テキスト関連視覚領域に焦点をあてて、モダリティアライメントとクラス分離を強化することに起因する。
さらに、テキストEOSトークンは、視覚サンプルに対してはるかに注意を払っており、CLIPの標準コントラスト損失は、モダリティアライメントを弱めている。
これらの知見に基づいて,アダプタとプロンプトを併用したアテンション修正フレームワークSemantic Probeを提案する。
4つのCDFSLベンチマークの大規模な実験は、我々の理論的根拠を検証し、最先端のパフォーマンスを達成し、両方の微調整パラダイムの恩恵を受ける。
コードはリリースされる。
関連論文リスト
- Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment [19.113214017897118]
Cross-Domain Few-Shot Learningは、大規模な汎用データ(ソースドメイン)でトレーニングされたモデルを、少ないトレーニングデータだけで、下流のターゲットドメインに適応させる。
CLIPモデルは、解釈可能な認識のためのきめ細かい視覚的手がかりにはほとんど焦点を合わせられない。
この問題に対処するために、局所的な視覚的特徴とテキスト意味論の整合性に監督が欠如しているため、私たちは自己監督情報に目を向ける。
論文 参考訳(メタデータ) (2026-03-18T12:20:21Z) - Mind the Discriminability Trap in Source-Free Cross-domain Few-shot Learning [30.80780619903459]
Source-Free Cross-Domain Few-Shot Learningは、ターゲットドメインからの限られたトレーニングデータによる微調整に焦点を当てている。
視覚的識別性の向上は実際にVLMの性能を抑制する。
まず、モデルを誘導し、モーダル間のアライメントに焦点を合わせるために、視覚学習を摂動させるアプローチを提案する。
論文 参考訳(メタデータ) (2026-03-07T03:59:23Z) - Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。
私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。
実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-31T09:42:42Z) - Dual Guidance Semi-Supervised Action Detection [71.45023660211145]
空間的時間的行動局在化のための半教師付きアプローチを提案する。
より優れた擬似有界ボックスを選択するための二重誘導ネットワークを導入する。
本フレームワークは,拡張画像に基づく半教師付きベースラインよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2025-07-28T18:08:36Z) - Multiple Stochastic Prompt Tuning for Few-shot Adaptation under Extreme Domain Shift [14.85375816073596]
クラス毎に複数の学習可能なプロンプトを導入し,分布シフトによる視覚表現の多様なモードをキャプチャする。
これらのプロンプトは学習可能なガウス分布としてモデル化され、プロンプトパラメータ空間の効率的な探索を可能にする。
実験と最先端手法との比較により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-06-04T13:18:04Z) - UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models [75.77651291095565]
我々は、視覚言語モデルの転送可能性を高めるために、自然に複数のドメインにまたがるラベルのないデータを活用する。
この教師なしマルチドメイン設定の下で、我々はCLIP内の固有モデルバイアスを特定した。
このモデルバイアスを軽減するために,Unsupervised Multi-domain Feature (UMFC)を提案する。
論文 参考訳(メタデータ) (2024-11-11T12:25:02Z) - In the Era of Prompt Learning with Vision-Language Models [1.060608983034705]
ドメイン一般化のためのドメインに依存しない新しい学習戦略であるtextscStyLIP を紹介する。
StyLIPは、スタイルプロジェクタを使用してドメイン固有のプロンプトトークンを学習することで、CLIPsビジョンエンコーダの視覚スタイルとコンテンツを切り離す。
また,CLIPの凍結視覚バックボーンを利用した非教師なし領域適応(DA)のためのAD-CLIPを提案する。
論文 参考訳(メタデータ) (2024-11-07T17:31:21Z) - Transferrable Contrastive Learning for Visual Domain Adaptation [108.98041306507372]
Transferrable Contrastive Learning (TCL) はドメイン適応に適した自己教師型学習パラダイムである。
TCLは、クリーンで斬新な対照的な損失を通じて、ソースとターゲット間のドメイン内ドメイン間の相違を罰する。
無料のランチは、対照的な学習が組み込まれているため、TCLは、ターゲットデータのための擬似ラベルの時間的にアンサンブルされたバージョンを自然に達成する、移動平均キーエンコーダに依存している。
論文 参考訳(メタデータ) (2021-12-14T16:23:01Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Few-Shot Learning as Domain Adaptation: Algorithm and Analysis [120.75020271706978]
わずかながらの学習は、目に見えないクラスを認識するために、目に見えないクラスから学んだ事前知識を使用する。
このクラス差による分布シフトは、ドメインシフトの特別なケースとみなすことができる。
メタラーニングフレームワークにおいて、そのようなドメインシフト問題に明示的に対処するために、注意を向けたプロトタイプドメイン適応ネットワーク(DAPNA)を提案する。
論文 参考訳(メタデータ) (2020-02-06T01:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。