論文の概要: Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2508.03102v1
- Date: Tue, 05 Aug 2025 05:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.796445
- Title: Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning
- Title(参考訳): ファウショット学習の強化のための因果解離とクロスモーダルアライメント
- Authors: Tianjiao Jiang, Zhen Zhang, Yuhang Liu, Javen Qinfeng Shi,
- Abstract要約: Causal CLIP Adapter(CCA)は、CLIPから抽出された視覚的特徴を明示的に分離する新しいフレームワークである。
本手法は, 分散シフトに対する数ショット性能とロバスト性の観点から, 常に最先端の手法より優れる。
- 参考スコア(独自算出の注目度): 11.752632557524969
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Few-shot learning (FSL) often requires effective adaptation of models using limited labeled data. However, most existing FSL methods rely on entangled representations, requiring the model to implicitly recover the unmixing process to obtain disentangled representations using only limited supervision, which hinders effective adaptation. Recent theoretical studies show that multimodal contrastive learning methods, such as CLIP, can disentangle latent representations up to linear transformations. In light of this, we propose the Causal CLIP Adapter (CCA), a novel framework that explicitly disentangles visual features extracted from CLIP using unsupervised Independent Component Analysis (ICA). This removes the need to learn the unmixing process from the labeled data, thereby reducing the number of trainable parameters and mitigating overfitting. Taking a step further, while ICA can obtain visual disentangled representations, it may also disrupt CLIP's intra- and inter-modal alignment. To counteract this, CCA further leverages CLIP's inherent cross-modal alignment by enhancing it in two ways: unidirectionally, through fine-tuning a CLIP-based text classifier, and bidirectionally, via a cross-attention mechanism that enriches visual and textual representations through mutual interaction. Both unimodal and cross-modal classification outputs can be effectively combined linearly to improve classification accuracy. Extensive experiments on 11 benchmark datasets demonstrate that our method consistently outperforms state-of-the-art approaches in terms of few-shot performance and robustness to distributional shifts, while maintaining computational efficiency. Code will be available at https://github.com/tianjiao-j/CCA.
- Abstract(参考訳): FSL(Few-shot Learning)は、限られたラベル付きデータを用いたモデルの効果的な適応を必要とすることが多い。
しかし、既存のほとんどのFSL法は絡み合った表現に依存しており、モデルが非混在な過程を暗黙的に復元し、限られた監督だけを用いて非絡み合った表現を得る必要があるため、効果的な適応が妨げられる。
近年の理論的研究により、CLIPのようなマルチモーダルコントラスト学習法は、線形変換まで潜在表現をアンタングルできることが示された。
そこで本研究では,CLIPから抽出した視覚的特徴を非教師付き独立成分分析 (ICA) を用いて明確に分離する新しいフレームワークであるCausal CLIP Adapter (CCA) を提案する。
これにより、ラベル付きデータから未混合プロセスを学ぶ必要がなくなり、トレーニング可能なパラメータの数が少なくなり、オーバーフィッティングが軽減される。
さらに一歩進めると、ICAは視覚的不整合表現を得られるが、CLIPの内的および間的アライメントを阻害する可能性がある。
これに対抗するためにCLIPは、CLIPベースのテキスト分類器を微調整し、双方向に相互の相互作用を通じて視覚的およびテキスト的表現を豊かにするクロスアテンション機構を通じて、CLIP固有のクロスモーダルアライメントを強化することによって、さらに2つの方法でCLIPを拡張している。
単調な分類出力とクロスモーダルな分類出力を効果的に組み合わせて分類精度を向上させることができる。
11のベンチマークデータセットに対する大規模な実験により、我々の手法は計算効率を保ちながら、数ショットのパフォーマンスと分散シフトに対する堅牢性の観点から、常に最先端の手法より優れていることが示された。
コードはhttps://github.com/tianjiao-j/CCAで入手できる。
関連論文リスト
- Towards Fine-Grained Adaptation of CLIP via a Self-Trained Alignment Score [11.74414842618874]
適応中の微粒な相互モーダル相互作用をモデル化すると、より正確でクラス別な擬似ラベルが得られることを示す。
局所化画像特徴と記述言語埋め込みとを動的に整合させる革新的なアプローチであるFAIR(ファインフルアライメント・アンド・インタラクション・リファインメント)を導入する。
当社のアプローチであるFAIRは、きめ細かな教師なし適応において大幅なパフォーマンス向上を実現し、2.78%という顕著な全体的な向上を実現しています。
論文 参考訳(メタデータ) (2025-07-13T12:38:38Z) - Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。
オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文 参考訳(メタデータ) (2025-05-25T07:08:07Z) - Cross-Modal Consistency Learning for Sign Language Recognition [92.44927164283641]
既存の事前学習方法は、コンパクトなポーズデータのみに焦点を当てている。
クロスモーダル一貫性学習フレームワーク(CCL-SLR)を提案する。
CCL-SLRはRGBから学習し、自己教師付き事前学習に基づいてモダリティをポーズする。
論文 参考訳(メタデータ) (2025-03-16T12:34:07Z) - Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Domain Aligned CLIP for Few-shot Classification [3.5326413171911555]
Domain Aligned CLIP (DAC) は、メインモデルを微調整することなく、ターゲット分布上のモーダル内(イメージ)とモーダル間アライメントの両方を改善する。
画像分類におけるDACの有効性について検討し,16ショット分類の精度を約2.3%向上させるとともに,11種類の画像分類タスクのベンチマークを行った。
論文 参考訳(メタデータ) (2023-11-15T18:34:26Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Weakly supervised segmentation with cross-modality equivariant
constraints [7.757293476741071]
弱い教師付き学習は、セマンティックセグメンテーションにおける大きなラベル付きデータセットの必要性を軽減するための魅力的な代替手段として登場した。
本稿では,マルチモーダル画像シナリオにおける自己スーパービジョンを活用した新しい学習戦略を提案する。
私たちのアプローチは、同じ学習条件下で関連する最近の文学を上回ります。
論文 参考訳(メタデータ) (2021-04-06T13:14:20Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。