Fugu-MT 論文翻訳(概要): Rethinking Misalignment in Vision-Language Model Adaptation from a Causal Perspective

論文の概要: Rethinking Misalignment in Vision-Language Model Adaptation from a Causal Perspective

arxiv url: http://arxiv.org/abs/2410.12816v2
Date: Tue, 05 Nov 2024 02:27:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.475259
Title: Rethinking Misalignment in Vision-Language Model Adaptation from a Causal Perspective
Title（参考訳）: 視覚・言語モデル適応における誤りの再考 : 因果的視点から
Authors: Yanan Zhang, Jiangmeng Li, Lixiang Liu, Wenwen Qiang,
Abstract要約: 本稿では,タスク非関連知識の干渉を軽減するために,因果性誘導セマンティックデカップリングと分類を提案する。多様な意味論によって生成される各予測の不確実性を評価するために、Dempster-Shaferエビデンス理論を用いる。
参考スコア（独自算出の注目度）: 13.56923651751788
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Foundational Vision-Language models such as CLIP have exhibited impressive generalization in downstream tasks. However, CLIP suffers from a two-level misalignment issue, i.e., task misalignment and data misalignment, when adapting to specific tasks. Soft prompt tuning has mitigated the task misalignment, yet the data misalignment remains a challenge. To analyze the impacts of the data misalignment, we revisit the pre-training and adaptation processes of CLIP and develop a structural causal model. We discover that while we expect to capture task-relevant information for downstream tasks accurately, the task-irrelevant knowledge impacts the prediction results and hampers the modeling of the true relationships between the images and the predicted classes. As task-irrelevant knowledge is unobservable, we leverage the front-door adjustment and propose Causality-Guided Semantic Decoupling and Classification (CDC) to mitigate the interference of task-irrelevant knowledge. Specifically, we decouple semantics contained in the data of downstream tasks and perform classification based on each semantic. Furthermore, we employ the Dempster-Shafer evidence theory to evaluate the uncertainty of each prediction generated by diverse semantics. Experiments conducted in multiple different settings have consistently demonstrated the effectiveness of CDC.
Abstract（参考訳）: CLIPのような基礎的なビジョン・ランゲージモデルでは、下流タスクに顕著な一般化が見られた。しかし、CLIPは2段階のミスアライメント、すなわち特定のタスクに適応する際のタスクアライメントとデータアライメントに悩まされている。ソフトなプロンプトチューニングはタスクのミスアライメントを緩和しましたが、データアライメントは依然として課題です。データ不整合の影響を分析するため,CLIPの事前学習・適応プロセスを再考し,構造的因果モデルを構築した。我々は、下流タスクのタスク関連情報を正確に捉えることを期待する一方で、タスク関連知識が予測結果に影響を与え、画像と予測クラス間の真の関係のモデル化を妨げていることを発見した。タスク非関連知識は観測不能であるため、正面調整を活用して、タスク非関連知識の干渉を軽減するために、Causality-Guided Semantic Decoupling and Classification (CDC)を提案する。具体的には、下流タスクのデータに含まれるセマンティクスを分離し、各セマンティクスに基づいて分類を行う。さらに,Dempster-Shaferエビデンス理論を用いて,多様な意味論による予測の不確実性を評価する。複数の異なる環境で行われた実験は、CDCの有効性を一貫して実証している。

関連論文リスト

On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文参考訳（メタデータ） (2026-01-29T17:48:56Z)
Bridging the Task Gap: Multi-Task Adversarial Transferability in CLIP and Its Derivatives [61.58574200236532]
きめ細かいタスクから生成される敵の例は、粗いタスクよりも強い伝達ポテンシャルを示すことが多い。本稿では,タスク認識機能集約損失を導入し,タスク間の一般化機能を強化した摂動を生成する,新しいフレームワークであるMulti-Task Adversarial CLIP (MT-AdvCLIP)を提案する。
論文参考訳（メタデータ） (2025-09-28T14:46:52Z)
CLEAR: Unlearning Spurious Style-Content Associations with Contrastive LEarning with Anti-contrastive Regularization [4.171555557592296]
反対正則化(CLEAR)を用いたコントラストLearningを提案する。 CLEARは、訓練中に必要不可欠な(タスク関連)特性と表在的(タスク非関連)特性を分離し、テスト時に表在的特性がシフトするときのパフォーマンスを向上させる。その結果, CLEAR-VAEは, (a) コンテンツのスワップと補間を行い, (b) 以前に見つからなかったコンテンツとスタイルの組み合わせの存在下で, 下流の分類性能を向上させることができることがわかった。
論文参考訳（メタデータ） (2025-07-24T20:31:21Z)
From Parameters to Prompts: Understanding and Mitigating the Factuality Gap between Fine-Tuned LLMs [4.447729258258283]
未知の知識と未知の知識を微調整する際に生じる事実のギャップについて検討する。我々の結果は、微調整データとテストタイムプロンプトの相互作用に光を当てた。
論文参考訳（メタデータ） (2025-05-29T12:59:30Z)
Provable Benefits of Task-Specific Prompts for In-context Learning [44.768199865867494]
本研究では,グローバルなタスク分布を条件付きタスク分布の結合に分割できる新しい設定について考察する。次に,タスク固有のプロンプトと予測ヘッドを用いて,一層アテンションモデルを用いて条件付きタスク分布に関連する事前情報を学習する。
論文参考訳（メタデータ） (2025-03-03T22:37:03Z)
Corrections Meet Explanations: A Unified Framework for Explainable Grammatical Error Correction [29.583603444317855]
本稿では,説明・修正タスクを生成的に統合した統一的な説明可能なGECフレームワークであるEXGECを紹介する。様々なNLPモデル(BART、T5、Llama3)の結果、EXGECモデルは両方のタスクにおいてシングルタスクベースラインを超えている。
論文参考訳（メタデータ） (2025-02-21T07:42:33Z)
Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。 ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2024-05-23T08:43:09Z)
A Unified Causal View of Instruction Tuning [76.1000380429553]
メタ構造因果モデル(meta-SCM)を開発し、異なるNLPタスクをデータの単一因果構造の下で統合する。主なアイデアは、タスク要求因果関係を学習し、タスクの予測にのみそれらを使用することである。
論文参考訳（メタデータ） (2024-02-09T07:12:56Z)
Distributed Continual Learning with CoCoA in High-dimensional Linear Regression [0.0]
興味の信号が時間とともに特性の変化を示すシナリオで推定する。特に、異なる分布を持つデータなど、異なるタスクが順次到着する連続的な学習問題を考察する。ネットワーク上でモデルパラメータと対応する特徴を分散する分散学習アルゴリズムCOCOAについて検討する。
論文参考訳（メタデータ） (2023-12-04T10:35:46Z)
Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文参考訳（メタデータ） (2023-11-08T05:18:57Z)
Mitigating Catastrophic Forgetting in Task-Incremental Continual Learning with Adaptive Classification Criterion [50.03041373044267]
本稿では,継続的学習のための適応型分類基準を用いた教師付きコントラスト学習フレームワークを提案する。実験により, CFLは最先端の性能を達成し, 分類基準に比べて克服する能力が強いことが示された。
論文参考訳（メタデータ） (2023-05-20T19:22:40Z)
Masked Reconstruction Contrastive Learning with Information Bottleneck Principle [9.136962881499734]
コントラスト学習(CL)は、自己指導型学習において大きな力を示している。現在のCLモデルは、正と負のペアを区別する能力のみを学ぶことに偏っている。 CLモデルを改善するために,Masked Reconstruction Contrastive Learning(MRCL)モデルを提案する。
論文参考訳（メタデータ） (2022-11-15T15:20:52Z)
Understanding and Mitigating Overfitting in Prompt Tuning for Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文参考訳（メタデータ） (2022-11-04T02:06:22Z)
Complementary Calibration: Boosting General Continual Learning with Collaborative Distillation and Self-Supervision [47.374412281270594]
General Continual Learning (GCL)は、非独立および同一の分散ストリームデータから学習することを目的としている。破滅的な忘れ方にとって,関係性や特徴の偏りが重要な問題であることが明らかとなった。補足モデルの出力と特徴をマイニングして補足的(CoCa)フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-03T06:35:27Z)
Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文参考訳（メタデータ） (2020-06-07T09:24:33Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。