論文の概要: Mind the Discriminability Trap in Source-Free Cross-domain Few-shot Learning
- arxiv url: http://arxiv.org/abs/2603.13341v1
- Date: Sat, 07 Mar 2026 03:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.785918
- Title: Mind the Discriminability Trap in Source-Free Cross-domain Few-shot Learning
- Title(参考訳): ソースレスクロスドメイン・ファウショット学習における識別可能性のトラップを意識する
- Authors: Zhenyu Zhang, Yixiong Zou, Yuhua Li, Ruixuan Li, Guangyao Chen,
- Abstract要約: Source-Free Cross-Domain Few-Shot Learningは、ターゲットドメインからの限られたトレーニングデータによる微調整に焦点を当てている。
視覚的識別性の向上は実際にVLMの性能を抑制する。
まず、モデルを誘導し、モーダル間のアライメントに焦点を合わせるために、視覚学習を摂動させるアプローチを提案する。
- 参考スコア(独自算出の注目度): 30.80780619903459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source-Free Cross-Domain Few-Shot Learning (SF-CDFSL) focuses on fine-tuning with limited training data from target domains (e.g., medical or satellite images), where Vision-Language Models (VLMs) such as CLIP and SigLIP have shown promising results. Current works in traditional visual models suggest that improving visual discriminability enhances performance. However, in VLM-based SF-CDFSL tasks, we find that \textbf{strengthening visual-modal discriminability actually suppresses VLMs' performance}. In this paper, we aim to delve into this phenomenon for an interpretation and a solution. By both theoretical and experimental proofs, our study reveals that fine-tuning with the typical cross-entropy loss ($\mathcal{L}_{\mathrm{vlm}}$) inherently includes a visual learning part and a cross-modal learning part, where the cross-modal part is crucial for rectifying the heavily disrupted modality misalignment in SF-CDFSL. However, we find that the visual learning essentially acts as a shortcut that encourages the model to reduce $\mathcal{L}_{\mathrm{vlm}}$ without considering the cross-modal part, therefore hindering the cross-modal alignment and harming the performance. Based on this interpretation, we further propose an approach to address this problem: first, we perturb the visual learning to guide the model to focus on the cross-modal alignment. Then, we use the visual-text semantic relationships to gradually align the visual and textual modalities during the fine-tuning. Extensive experiments on various settings, backbones (CLIP, SigLip, PE-Core), and tasks (4 CDFSL datasets and 11 FSL datasets) show that we consistently set new state-of-the-art results. Code is available at https://github.com/zhenyuZ-HUST/CVPR26-Mind-the-Discriminability-Trap.
- Abstract(参考訳): Source-Free Cross-Domain Few-Shot Learning (SF-CDFSL)は、ターゲットドメイン(例えば、医療や衛星画像)からの限られたトレーニングデータによる微調整に焦点を当てており、CLIPやSigLIPのようなビジョン・ランゲージ・モデル(VLM)が有望な結果を示している。
従来の視覚モデルにおける現在の研究は、視覚的識別性の改善がパフォーマンスを向上させることを示唆している。
しかし, VLM ベースの SF-CDFSL タスクでは, 視覚的モーダル識別能力の強化は VLM の性能を実際に抑制している。
本稿では,この現象を解釈と解法として掘り下げることを目的とする。
理論的および実験的な証明により,典型的なクロスエントロピー損失(\mathcal{L}_{\mathrm{vlm}}$)による微調整は本質的には視覚学習部とクロスモーダル学習部を含むことが明らかとなった。
しかし、視覚学習は本質的にショートカットとして機能し、クロスモーダル部分を考えることなく$\mathcal{L}_{\mathrm{vlm}}$を減らし、したがってクロスモーダルアライメントを妨げ、性能を損なう。
この解釈に基づいて、我々はこの問題に対処するためのアプローチをさらに提案する: まず、モデルをモダル間のアライメントに焦点を合わせるために視覚学習を摂動させる。
そして,視覚とテキストのセマンティックな関係を利用して,微調整中の視覚とテキストのモダリティを徐々に調整する。
さまざまな設定、バックボーン(CLIP, SigLip, PE-Core)、タスク(4つのCDFSLデータセットと11のFSLデータセット)に関する大規模な実験は、新しい最先端の結果を一貫して設定していることを示しています。
コードはhttps://github.com/zhenyuZ-HUST/CVPR26-Mind-the-Discriminability-Trapで公開されている。
関連論文リスト
- Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning [11.752632557524969]
Causal CLIP Adapter(CCA)は、CLIPから抽出された視覚的特徴を明示的に分離する新しいフレームワークである。
本手法は, 分散シフトに対する数ショット性能とロバスト性の観点から, 常に最先端の手法より優れる。
論文 参考訳(メタデータ) (2025-08-05T05:30:42Z) - Interpretable Zero-Shot Learning with Locally-Aligned Vision-Language Model [56.573203512455706]
大規模視覚言語モデル(VLM)は、大規模視覚テキストペアデータセットを活用することでゼロショット学習(ZSL)において顕著な成功を収めた。
この問題に対処する1つのアプローチは、言語を統合することで解釈可能なモデルを開発することである。
本稿では,ZSLを解釈可能な言語モデルであるLaZSLを提案する。
論文 参考訳(メタデータ) (2025-06-30T13:14:46Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training [49.2684130383925]
視覚言語事前学習のためのCOSMOS: CrOSs-modality Self-distillationを提案する。
新たなテキストクロッピング戦略とクロスアテンションモジュールを自己教師型学習フレームワークに統合する。
さまざまなゼロショットダウンストリームタスクにおいて、以前の強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-12-02T18:56:06Z) - X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。
視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。
X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-05-29T17:59:58Z) - Black Box Few-Shot Adaptation for Vision-Language models [41.49584259596654]
ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。
本稿では,プリコンパイルされた画像とテキストの特徴に基づいて,V-L小ショット適応のためのブラックボックス手法について述べる。
対象領域におけるV-L再アライメントに対する単純な線形アプローチである線形特徴アライメント(LFA)を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。