論文の概要: Rethinking Misalignment in Vision-Language Model Adaptation from a Causal Perspective
- arxiv url: http://arxiv.org/abs/2410.12816v2
- Date: Tue, 05 Nov 2024 02:27:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:57:47.168465
- Title: Rethinking Misalignment in Vision-Language Model Adaptation from a Causal Perspective
- Title(参考訳): 視覚・言語モデル適応における誤りの再考 : 因果的視点から
- Authors: Yanan Zhang, Jiangmeng Li, Lixiang Liu, Wenwen Qiang,
- Abstract要約: 本稿では,タスク非関連知識の干渉を軽減するために,因果性誘導セマンティックデカップリングと分類を提案する。
多様な意味論によって生成される各予測の不確実性を評価するために、Dempster-Shaferエビデンス理論を用いる。
- 参考スコア(独自算出の注目度): 13.56923651751788
- License:
- Abstract: Foundational Vision-Language models such as CLIP have exhibited impressive generalization in downstream tasks. However, CLIP suffers from a two-level misalignment issue, i.e., task misalignment and data misalignment, when adapting to specific tasks. Soft prompt tuning has mitigated the task misalignment, yet the data misalignment remains a challenge. To analyze the impacts of the data misalignment, we revisit the pre-training and adaptation processes of CLIP and develop a structural causal model. We discover that while we expect to capture task-relevant information for downstream tasks accurately, the task-irrelevant knowledge impacts the prediction results and hampers the modeling of the true relationships between the images and the predicted classes. As task-irrelevant knowledge is unobservable, we leverage the front-door adjustment and propose Causality-Guided Semantic Decoupling and Classification (CDC) to mitigate the interference of task-irrelevant knowledge. Specifically, we decouple semantics contained in the data of downstream tasks and perform classification based on each semantic. Furthermore, we employ the Dempster-Shafer evidence theory to evaluate the uncertainty of each prediction generated by diverse semantics. Experiments conducted in multiple different settings have consistently demonstrated the effectiveness of CDC.
- Abstract(参考訳): CLIPのような基礎的なビジョン・ランゲージモデルでは、下流タスクに顕著な一般化が見られた。
しかし、CLIPは2段階のミスアライメント、すなわち特定のタスクに適応する際のタスクアライメントとデータアライメントに悩まされている。
ソフトなプロンプトチューニングはタスクのミスアライメントを緩和しましたが、データアライメントは依然として課題です。
データ不整合の影響を分析するため,CLIPの事前学習・適応プロセスを再考し,構造的因果モデルを構築した。
我々は、下流タスクのタスク関連情報を正確に捉えることを期待する一方で、タスク関連知識が予測結果に影響を与え、画像と予測クラス間の真の関係のモデル化を妨げていることを発見した。
タスク非関連知識は観測不能であるため、正面調整を活用して、タスク非関連知識の干渉を軽減するために、Causality-Guided Semantic Decoupling and Classification (CDC)を提案する。
具体的には、下流タスクのデータに含まれるセマンティクスを分離し、各セマンティクスに基づいて分類を行う。
さらに,Dempster-Shaferエビデンス理論を用いて,多様な意味論による予測の不確実性を評価する。
複数の異なる環境で行われた実験は、CDCの有効性を一貫して実証している。
関連論文リスト
- Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - A Unified Causal View of Instruction Tuning [76.1000380429553]
メタ構造因果モデル(meta-SCM)を開発し、異なるNLPタスクをデータの単一因果構造の下で統合する。
主なアイデアは、タスク要求因果関係を学習し、タスクの予測にのみそれらを使用することである。
論文 参考訳(メタデータ) (2024-02-09T07:12:56Z) - Distributed Continual Learning with CoCoA in High-dimensional Linear
Regression [0.0]
興味の信号が時間とともに特性の変化を示すシナリオで推定する。
特に、異なる分布を持つデータなど、異なるタスクが順次到着する連続的な学習問題を考察する。
ネットワーク上でモデルパラメータと対応する特徴を分散する分散学習アルゴリズムCOCOAについて検討する。
論文 参考訳(メタデータ) (2023-12-04T10:35:46Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - Mitigating Catastrophic Forgetting in Task-Incremental Continual
Learning with Adaptive Classification Criterion [50.03041373044267]
本稿では,継続的学習のための適応型分類基準を用いた教師付きコントラスト学習フレームワークを提案する。
実験により, CFLは最先端の性能を達成し, 分類基準に比べて克服する能力が強いことが示された。
論文 参考訳(メタデータ) (2023-05-20T19:22:40Z) - Masked Reconstruction Contrastive Learning with Information Bottleneck
Principle [9.136962881499734]
コントラスト学習(CL)は、自己指導型学習において大きな力を示している。
現在のCLモデルは、正と負のペアを区別する能力のみを学ぶことに偏っている。
CLモデルを改善するために,Masked Reconstruction Contrastive Learning(MRCL)モデルを提案する。
論文 参考訳(メタデータ) (2022-11-15T15:20:52Z) - Understanding and Mitigating Overfitting in Prompt Tuning for
Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。
我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文 参考訳(メタデータ) (2022-11-04T02:06:22Z) - Complementary Calibration: Boosting General Continual Learning with
Collaborative Distillation and Self-Supervision [47.374412281270594]
General Continual Learning (GCL)は、非独立および同一の分散ストリームデータから学習することを目的としている。
破滅的な忘れ方にとって,関係性や特徴の偏りが重要な問題であることが明らかとなった。
補足モデルの出力と特徴をマイニングして補足的(CoCa)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-03T06:35:27Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。