論文の概要: Towards Fine-Grained Adaptation of CLIP via a Self-Trained Alignment Score
- arxiv url: http://arxiv.org/abs/2507.09615v1
- Date: Sun, 13 Jul 2025 12:38:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.58446
- Title: Towards Fine-Grained Adaptation of CLIP via a Self-Trained Alignment Score
- Title(参考訳): 自己学習アライメントスコアによるCLIPの微粒化適応に向けて
- Authors: Eman Ali, Sathira Silva, Chetan Arora, Muhammad Haris Khan,
- Abstract要約: 適応中の微粒な相互モーダル相互作用をモデル化すると、より正確でクラス別な擬似ラベルが得られることを示す。
局所化画像特徴と記述言語埋め込みとを動的に整合させる革新的なアプローチであるFAIR(ファインフルアライメント・アンド・インタラクション・リファインメント)を導入する。
当社のアプローチであるFAIRは、きめ細かな教師なし適応において大幅なパフォーマンス向上を実現し、2.78%という顕著な全体的な向上を実現しています。
- 参考スコア(独自算出の注目度): 11.74414842618874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) like CLIP excel in zero-shot learning by aligning image and text representations through contrastive pretraining. Existing approaches to unsupervised adaptation (UA) for fine-grained classification with VLMs either rely on fixed alignment scores that cannot capture evolving, subtle class distinctions or use computationally expensive pseudo-labeling strategies that limit scalability. In contrast, we show that modeling fine-grained cross-modal interactions during adaptation produces more accurate, class-discriminative pseudo-labels and substantially improves performance over state-of-the-art (SOTA) methods. We introduce Fine-grained Alignment and Interaction Refinement (FAIR), an innovative approach that dynamically aligns localized image features with descriptive language embeddings through a set of Class Description Anchors (CDA). This enables the definition of a Learned Alignment Score (LAS), which incorporates CDA as an adaptive classifier, facilitating cross-modal interactions to improve self-training in unsupervised adaptation. Furthermore, we propose a self-training weighting mechanism designed to refine pseudo-labels in the presence of inter-class ambiguities. Our approach, FAIR, delivers a substantial performance boost in fine-grained unsupervised adaptation, achieving a notable overall gain of 2.78% across 13 fine-grained datasets compared to SOTA methods.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、対照的な事前学習を通じて画像とテキスト表現を整列することでゼロショット学習に優れる。
VLMを用いたきめ細かい分類のための既存のアン教師なし適応(UA)アプローチは、進化的、微妙なクラス区別を捉えられない固定アライメントスコアに依存するか、スケーラビリティを制限する計算コストの高い擬似ラベル戦略を使用するかのいずれかである。
対照的に、適応中の微粒なクロスモーダル相互作用のモデリングにより、より正確でクラス識別的な擬似ラベルが得られ、最先端(SOTA)法よりも性能が大幅に向上することを示す。
クラス記述アンカー(CDA)の集合を通して局所化画像特徴と記述言語埋め込みを動的に整合させる革新的なアプローチであるFAIR(ファインファインメント・アライメント・インタラクション・リファインメント)を導入する。
これにより、CDAを適応分類器として組み込んだLearned Alignment Score (LAS) の定義が可能となり、非教師なし適応における自己学習を改善するために、相互モーダルな相互作用が促進される。
さらに,クラス間あいまいさの存在下で擬似ラベルを洗練するための自己学習重み付け機構を提案する。
我々のアプローチであるFAIRは、きめ細かな教師なし適応において大幅なパフォーマンス向上をもたらし、SOTA法と比較して13のきめ細かいデータセットに対して2.78%の顕著な総合的な向上を達成した。
関連論文リスト
- DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
Open-Vocabulary Multi-Label Recognition (OV-MLR)は、画像内の複数の見えないオブジェクトカテゴリを識別することを目的としている。
ビジョンランゲージ事前学習モデルは強力なオープン語彙基盤を提供するが、弱い監督下では微粒な局所化に苦慮する。
本稿では,これらの制約を克服するためのDART(Dual Adaptive Refinement Transfer)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T17:22:33Z) - Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning [11.752632557524969]
Causal CLIP Adapter(CCA)は、CLIPから抽出された視覚的特徴を明示的に分離する新しいフレームワークである。
本手法は, 分散シフトに対する数ショット性能とロバスト性の観点から, 常に最先端の手法より優れる。
論文 参考訳(メタデータ) (2025-08-05T05:30:42Z) - Training-Free Class Purification for Open-Vocabulary Semantic Segmentation [72.87707878910896]
FreeCPは、セマンティックセグメンテーションのためのトレーニング不要のクラス浄化フレームワークである。
我々は,FreeCPの有効性を検証するため,8つのベンチマークで実験を行った。
その結果、プラグイン・アンド・プレイモジュールであるFreeCPは、他のOVSSメソッドと組み合わせることでセグメンテーション性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-08-01T11:55:12Z) - Prototype-Guided Pseudo-Labeling with Neighborhood-Aware Consistency for Unsupervised Adaptation [12.829638461740759]
CLIPのような視覚言語モデルに対する教師なし適応では、ゼロショット予測からの擬似ラベルは大きなノイズを示すことが多い。
本稿では,プロトタイプの整合性と近傍の整合性を統合することで,CLIPの適応性能を向上させる適応型擬似ラベルフレームワークを提案する。
提案手法は、教師なし適応シナリオにおける最先端性能を実現し、計算効率を維持しつつ、より正確な擬似ラベルを提供する。
論文 参考訳(メタデータ) (2025-07-22T19:08:24Z) - ATAS: Any-to-Any Self-Distillation for Enhanced Open-Vocabulary Dense Prediction [3.7365850182404845]
Any-to-Any Self-Distillation (ATAS)は、セマンティックコヒーレンスときめ細かいアライメントを同時に強化する新しいアプローチである。
ATASはオープン語彙オブジェクト検出とセマンティックセグメンテーションのベンチマークでかなりの性能向上を達成した。
論文 参考訳(メタデータ) (2025-06-10T10:40:10Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Unbiased Max-Min Embedding Classification for Transductive Few-Shot Learning: Clustering and Classification Are All You Need [83.10178754323955]
わずかなショットラーニングにより、モデルがいくつかのラベル付き例から一般化できる。
本稿では,Unbiased Max-Min Embedding Classification (UMMEC)法を提案する。
本手法は最小ラベル付きデータを用いて分類性能を著しく向上させ, 注釈付きLの最先端化を推し進める。
論文 参考訳(メタデータ) (2025-03-28T07:23:07Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Domain Aligned CLIP for Few-shot Classification [3.5326413171911555]
Domain Aligned CLIP (DAC) は、メインモデルを微調整することなく、ターゲット分布上のモーダル内(イメージ)とモーダル間アライメントの両方を改善する。
画像分類におけるDACの有効性について検討し,16ショット分類の精度を約2.3%向上させるとともに,11種類の画像分類タスクのベンチマークを行った。
論文 参考訳(メタデータ) (2023-11-15T18:34:26Z) - Predicting Class Distribution Shift for Reliable Domain Adaptive Object
Detection [2.5193191501662144]
Unsupervised Domain Adaptive Object Detection (UDA-OD) は、オープンワールド環境におけるロボットビジョンシステムの信頼性を向上させるために、非ラベルデータを使用する。
自己学習に基づくUDA-ODに対する従来のアプローチは、画像の一般的な外観の変化を克服するのに有効である。
本稿では,自己学習における疑似ラベルの信頼性を向上させるために,クラス分散シフトに明示的に対処するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-13T00:46:34Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Weakly supervised segmentation with cross-modality equivariant
constraints [7.757293476741071]
弱い教師付き学習は、セマンティックセグメンテーションにおける大きなラベル付きデータセットの必要性を軽減するための魅力的な代替手段として登場した。
本稿では,マルチモーダル画像シナリオにおける自己スーパービジョンを活用した新しい学習戦略を提案する。
私たちのアプローチは、同じ学習条件下で関連する最近の文学を上回ります。
論文 参考訳(メタデータ) (2021-04-06T13:14:20Z) - Selective Pseudo-Labeling with Reinforcement Learning for
Semi-Supervised Domain Adaptation [116.48885692054724]
半教師付きドメイン適応のための強化学習に基づく選択擬似ラベル法を提案する。
高精度かつ代表的な擬似ラベルインスタンスを選択するための深層Q-ラーニングモデルを開発する。
提案手法は, SSDAのベンチマークデータセットを用いて評価し, 全ての比較手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-12-07T03:37:38Z) - Unsupervised Domain Adaptation in Semantic Segmentation via Orthogonal
and Clustered Embeddings [25.137859989323537]
本稿では,機能クラスタリング手法に基づく効果的なUnsupervised Domain Adaptation(UDA)戦略を提案する。
識別的クラスタリング性能を高めるために,2つの新しい学習目標を導入する。
論文 参考訳(メタデータ) (2020-11-25T10:06:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。