論文の概要: Learning Invariant Causal Mechanism from Vision-Language Models
- arxiv url: http://arxiv.org/abs/2405.15289v2
- Date: Mon, 12 Aug 2024 10:53:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 21:12:59.779088
- Title: Learning Invariant Causal Mechanism from Vision-Language Models
- Title(参考訳): 視覚言語モデルからの不変因果メカニズムの学習
- Authors: Zeen Song, Siyu Zhao, Xingyu Zhang, Jiangmeng Li, Changwen Zheng, Wenwen Qiang,
- Abstract要約: 現実世界のアプリケーションでは、CLIPモデルはトレーニング中に遭遇したシナリオよりも多様なシナリオで使用されることが多い。
Invariant Causal Mechanism for CLIP (CLIP-ICM)を提案する。
提案手法は単純だが, 計算オーバーヘッドが大きくない。
- 参考スコア(独自算出の注目度): 14.0158707862717
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large-scale pre-trained vision-language models such as CLIP have been widely applied to a variety of downstream scenarios. In real-world applications, the CLIP model is often utilized in more diverse scenarios than those encountered during its training, a challenge known as the out-of-distribution (OOD) problem. However, our experiments reveal that CLIP performs unsatisfactorily in certain domains. Through a causal analysis, we find that CLIP's current prediction process cannot guarantee a low OOD risk. The lowest OOD risk can be achieved when the prediction process is based on invariant causal mechanisms, i.e., predicting solely based on invariant latent factors. However, theoretical analysis indicates that CLIP does not identify these invariant latent factors. Therefore, we propose the Invariant Causal Mechanism for CLIP (CLIP-ICM), a framework that first identifies invariant latent factors using interventional data and then performs invariant predictions across various domains. Our method is simple yet effective, without significant computational overhead. Experimental results demonstrate that CLIP-ICM significantly improves CLIP's performance in OOD scenarios.
- Abstract(参考訳): CLIPのような大規模な事前学習された視覚言語モデルは、様々なダウンストリームシナリオに広く適用されている。
現実世界のアプリケーションでは、CLIPモデルはトレーニング中に遭遇したシナリオよりも多様なシナリオで使用されることが多い。
しかし,実験の結果,CLIPは特定の領域で不満足に機能することが判明した。
因果解析により、CLIPの現在の予測プロセスは低いOODリスクを保証できないことがわかった。
最も低いOODリスクは、予測プロセスが不変因果機構、すなわち不変因果因子のみに基づいて予測する場合に達成できる。
しかし、理論解析により、CLIPはこれらの不変潜伏因子を同定していないことが示されている。
そこで我々はCLIPの不変因果メカニズム(CLIP-ICM)を提案する。これはまず、介入データを用いて不変因果関係を識別し、その後、様々な領域にわたって不変な予測を行うフレームワークである。
提案手法は,計算オーバーヘッドを伴わず,単純かつ効果的である。
実験の結果、CLIP-ICMはOODシナリオにおけるCLIPの性能を大幅に改善することが示された。
関連論文リスト
- Revisiting Spurious Correlation in Domain Generalization [12.745076668687748]
データ生成プロセスにおける因果関係を記述するために,構造因果モデル(SCM)を構築した。
さらに、スプリアス相関に基づくメカニズムを徹底的に分析する。
そこで本研究では,OOD一般化における共起バイアスの制御について,相対性スコア重み付き推定器を導入して提案する。
論文 参考訳(メタデータ) (2024-06-17T13:22:00Z) - Counterfactual Fairness through Transforming Data Orthogonal to Bias [7.109458605736819]
我々は新しいデータ前処理アルゴリズムOrthogonal to Bias (OB)を提案する。
OBは、連続的な敏感な変数群の影響を排除し、機械学習アプリケーションにおける反ファクトフェアネスを促進するように設計されている。
OBはモデルに依存しないため、幅広い機械学習モデルやタスクに適用できる。
論文 参考訳(メタデータ) (2024-03-26T16:40:08Z) - DIGIC: Domain Generalizable Imitation Learning by Causal Discovery [69.13526582209165]
因果性は機械学習と組み合わせて、ドメインの一般化のための堅牢な表現を生成する。
我々は、実証データ分布を活用して、ドメインの一般化可能なポリシーの因果的特徴を発見するために、異なる試みを行っている。
DIGICと呼ばれる新しいフレームワークを設計し、実演データ分布から専門家行動の直接的な原因を見出すことにより因果的特徴を識別する。
論文 参考訳(メタデータ) (2024-02-29T07:09:01Z) - Revealing Multimodal Contrastive Representation Learning through Latent
Partial Causal Models [85.67870425656368]
マルチモーダルデータに特化して設計された統一因果モデルを提案する。
マルチモーダル・コントラスト表現学習は潜在結合変数の同定に優れていることを示す。
実験では、仮定が破られたとしても、我々の発見の堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Diagnosing and Rectifying Fake OOD Invariance: A Restructured Causal
Approach [51.012396632595554]
不変表現学習(IRL)は、不変因果的特徴から環境から切り離されたラベルへの予測を促進する。
最近の理論的結果は、IRLによって回復されたいくつかの因果的特徴は、訓練環境ではドメイン不変のふりをするが、目に見えない領域では失敗する。
本研究では,RS-SCMに関する条件付き相互情報に基づく手法を開発し,その効果を巧みに補正する。
論文 参考訳(メタデータ) (2023-12-15T12:58:05Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Variational Disentanglement for Domain Generalization [68.85458536180437]
本稿では,変分拡散ネットワーク(VDN)という効果的なフレームワークを提供することにより,領域一般化の課題に取り組むことを提案する。
VDNは、ドメイン固有の機能とタスク固有の機能を切り離し、タスク固有のフィーチャは、見えないが関連するテストデータにより良い一般化が期待できる。
論文 参考訳(メタデータ) (2021-09-13T09:55:32Z) - Variational Learning of Individual Survival Distributions [21.40142425105635]
本稿では,分散学習技術とディープニューラルネットワークの最近の進歩を基盤として,変分生存推定(VSI)と呼ばれる変動時間対イベント予測モデルを提案する。
提案手法の有効性を検証するため, 合成および実世界の両方のデータセットに対する広範な実験を行い, 競合するソリューションと比較して性能が向上したことを示す。
論文 参考訳(メタデータ) (2020-03-09T22:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。