論文の概要: Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment
- arxiv url: http://arxiv.org/abs/2603.17655v1
- Date: Wed, 18 Mar 2026 12:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.690532
- Title: Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment
- Title(参考訳): 修正対象領域局所アライメントを用いた解釈可能なクロスドメインFew-Shot学習
- Authors: Yaze Zhao, Yixiong Zou, Yuhua Li, Ruixuan Li,
- Abstract要約: Cross-Domain Few-Shot Learningは、大規模な汎用データ(ソースドメイン)でトレーニングされたモデルを、少ないトレーニングデータだけで、下流のターゲットドメインに適応させる。
CLIPモデルは、解釈可能な認識のためのきめ細かい視覚的手がかりにはほとんど焦点を合わせられない。
この問題に対処するために、局所的な視覚的特徴とテキスト意味論の整合性に監督が欠如しているため、私たちは自己監督情報に目を向ける。
- 参考スコア(独自算出の注目度): 19.113214017897118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-Domain Few-Shot Learning (CDFSL) adapts models trained with large-scale general data (source domain) to downstream target domains with only scarce training data, where the research on vision-language models (e.g., CLIP) is still in the early stages. Typical downstream domains, such as medical diagnosis, require fine-grained visual cues for interpretable recognition, but we find that current fine-tuned CLIP models can hardly focus on these cues, albeit they can roughly focus on important regions in source domains. Although current works have demonstrated CLIP's shortcomings in capturing local subtle patterns, in this paper, we find that the domain gap and scarce training data further exacerbate such shortcomings, much more than that of holistic patterns, which we call the local misalignment problem in CLIP-based CDFSL. To address this problem, due to the lack of supervision in aligning local visual features and text semantics, we turn to self-supervision information. Inspired by the translation task, we propose the CC-CDFSL method with cycle consistency, which translates local visual features into text features and then translates them back into visual features (and vice versa), and constrains the original features close to the translated back features. To reduce the noise imported by richer information in the visual modality, we further propose a Semantic Anchor mechanism, which first augments visual features to provide a larger corpus for the text-to-image mapping, and then shrinks the image features to filter out irrelevant image-to-text mapping. Extensive experiments on various benchmarks, backbones, and fine-tuning methods show we can (1) effectively improve the local vision-language alignment, (2) enhance the interpretability of learned patterns and model decisions by visualizing patches, and (3) achieve state-of-the-art performance.
- Abstract(参考訳): Cross-Domain Few-Shot Learning (CDFSL) は、大規模な汎用データ(ソースドメイン)でトレーニングされたモデルを、限られたトレーニングデータだけで下流のターゲットドメインに適応させ、視覚言語モデル(例えばCLIP)の研究はまだ初期段階にある。
医学診断などの典型的な下流領域では、解釈可能な認識にはきめ細かな視覚的手がかりが必要であるが、現在の微調整のCLIPモデルはこれらの手がかりにはほとんど焦点を当てることができない。
局所的な微妙なパターンを捉える上でのCLIPの欠点は,本論文では,CLIPをベースとしたCDFSLにおける局所的なミスアライメント問題と呼ばれる全体的パターンよりも,ドメインギャップと不足したトレーニングデータがさらに悪化していることが確認されている。
この問題に対処するために、局所的な視覚的特徴とテキスト意味論の整合性に監督が欠如しているため、私たちは自己監督情報に目を向ける。
翻訳タスクに触発されたCC-CDFSL法は,局所的な視覚的特徴をテキストの特徴に翻訳し,それらを視覚的特徴(およびその逆も)に変換し,元の特徴を翻訳後の特徴に近いものに制約する。
視覚的モダリティにおいて、よりリッチな情報によって輸入されるノイズを低減するために、まず視覚的特徴を増強し、テキスト間マッピングのためのより大きなコーパスを提供するセマンティックアンカー機構を提案し、その後、画像特徴を縮小して、無関係な画像間マッピングをフィルタリングする。
様々なベンチマーク,バックボーン,微調整手法の広範な実験により,(1)局所的な視覚言語アライメントを効果的に改善し,(2)学習パターンの解釈可能性を高め,(2)パッチの可視化によるモデル決定を向上し,(3)最先端のパフォーマンスを達成できることが示されている。
関連論文リスト
- Weakly-Supervised Image Forgery Localization via Vision-Language Collaborative Reasoning Framework [16.961220047066792]
ViLaCoは視覚言語の共同推論フレームワークで、事前訓練された視覚言語モデルから抽出した補助的セマンティックインスペクションを導入する。
ViLaCoは既存のWSIFL法を大幅に上回り、検出精度とローカライゼーション精度の両方で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-08-02T12:14:29Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。