論文の概要: CAMO: Causality-Guided Adversarial Multimodal Domain Generalization for Crisis Classification
- arxiv url: http://arxiv.org/abs/2512.08071v1
- Date: Mon, 08 Dec 2025 22:12:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.737284
- Title: CAMO: Causality-Guided Adversarial Multimodal Domain Generalization for Crisis Classification
- Title(参考訳): CAMO(Causality-Guided Adversarial Multimodal Domain Generalization for Crisis Classification)
- Authors: Pingchuan Ma, Chengshuai Zhao, Bohan Jiang, Saketh Vishnubhatla, Ujun Jeong, Alimohammad Beigi, Adrienne Raglin, Huan Liu,
- Abstract要約: ソーシャルメディアにおける危機分類は、投稿から実行可能な災害関連情報を抽出することを目的としている。
既存のアプローチは、主にディープラーニングを活用して、危機分類のためにテキストと視覚の手がかりを融合する。
本稿では,対向的絡み合いと統一表現学習を組み合わせた因果性誘導型マルチモーダル領域一般化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.165585394745786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crisis classification in social media aims to extract actionable disaster-related information from multimodal posts, which is a crucial task for enhancing situational awareness and facilitating timely emergency responses. However, the wide variation in crisis types makes achieving generalizable performance across unseen disasters a persistent challenge. Existing approaches primarily leverage deep learning to fuse textual and visual cues for crisis classification, achieving numerically plausible results under in-domain settings. However, they exhibit poor generalization across unseen crisis types because they 1. do not disentangle spurious and causal features, resulting in performance degradation under domain shift, and 2. fail to align heterogeneous modality representations within a shared space, which hinders the direct adaptation of established single-modality domain generalization (DG) techniques to the multimodal setting. To address these issues, we introduce a causality-guided multimodal domain generalization (MMDG) framework that combines adversarial disentanglement with unified representation learning for crisis classification. The adversarial objective encourages the model to disentangle and focus on domain-invariant causal features, leading to more generalizable classifications grounded in stable causal mechanisms. The unified representation aligns features from different modalities within a shared latent space, enabling single-modality DG strategies to be seamlessly extended to multimodal learning. Experiments on the different datasets demonstrate that our approach achieves the best performance in unseen disaster scenarios.
- Abstract(参考訳): ソーシャルメディアにおける危機分類は、災害関連情報を多目的投稿から抽出することを目的としており、状況認識を高め、タイムリーな緊急対応を促進する上で重要な課題である。
しかし、危機タイプが多種多様であることから、目に見えない災害をまたいで総合的なパフォーマンスを達成することは、永続的な課題である。
既存のアプローチは、主にディープラーニングを活用して、危機分類のためにテキストと視覚の手がかりを融合し、ドメイン内の設定下で数値的に妥当な結果を得る。
しかし、それらは目に見えない危機タイプにまたがる一般化が不十分である。
1. 突発的・因果的特徴を乱さないようにし、ドメインシフトによる性能劣化を招き、
2. 共有空間内での不均一なモダリティ表現の整合に失敗し、これは確立された単一モダリティ領域一般化(DG)技術のマルチモーダル設定への直接的な適応を妨げる。
これらの課題に対処するため,危機分類のための対向不整合と統一表現学習を組み合わせた因果誘導型マルチモーダルドメイン一般化(MMDG)フレームワークを導入する。
敵対的目的は、モデルをアンタングルし、ドメイン不変因果的特徴に焦点を合わせることを奨励し、安定した因果機構に基づくより一般化可能な分類をもたらす。
統一表現は、共有潜在空間内の異なるモダリティから特徴を整列させ、単一のモダリティDG戦略をマルチモーダル学習にシームレスに拡張することを可能にする。
異なるデータセットの実験は、我々のアプローチが目に見えない災害シナリオで最高のパフォーマンスを達成することを実証している。
関連論文リスト
- Learning Representation and Synergy Invariances: A Povable Framework for Generalized Multimodal Face Anti-Spoofing [85.00865662325954]
複数の視覚的モダリティを統合するマルチモーダル・フェイス・アンチ・スプーフィング(FAS)法は、目に見えないドメインにデプロイすると、より深刻なパフォーマンス劣化を被ることが多い。
これは主に、クロスドメインのマルチモーダル一般化に影響を与える2つの見落とされがちなリスクによるものである。
証明可能なフレームワーク,すなわちマルチモーダル表現と相乗的不変学習(RiSe)を提案する。
論文 参考訳(メタデータ) (2025-11-18T05:37:06Z) - Bridging Domain Generalization to Multimodal Domain Generalization via Unified Representations [43.07575348801021]
ドメイン一般化(DG)は、ソースドメインのみをトレーニングすることで、目に見えない、あるいは分散的にシフトしたターゲットドメインにおけるモデルの堅牢性を高めることを目的としている。
マルチモーダル・ドメイン・ジェネリゼーション(MMDG)における重要な課題は、マルチモーダル・ソースで訓練されたモデルが、同じモダリティ・セット内の未確認対象の分布に一般化できるようにすることである。
我々は、統一表現を利用して異なるペアのモダリティをマッピングする新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-04T05:17:32Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Casual Inference via Style Bias Deconfounding for Domain Generalization [28.866189619091227]
本稿では, 因果推論に基づく新しいフレームワークであるStyle Deconfounding Causal Learningを紹介する。
提案手法は、ドメイン一般化問題に適した構造因果モデル(SCM)の構築から始まり、スタイルの影響を考慮に入れたバックドア調整戦略を適用する。
この基礎の上に構築したSGEM(style-guided Expert Module)は,トレーニング中のスタイル分布を適応的にクラスタリングし,グローバルなコンバウンディングスタイルをキャプチャする。
バックドア因果学習モジュール(BDCL)は特徴抽出中に因果介入を行い、グローバルな共起スタイルをサンプル予測に適切に統合し、スタイルバイアスを効果的に低減する。
論文 参考訳(メタデータ) (2025-03-21T04:52:31Z) - DADM: Dual Alignment of Domain and Modality for Face Anti-spoofing [58.62312400472865]
マルチモーダル・フェイス・アンチ・スプーフィング (FAS) が顕著な研究対象となっている。
相互情報に基づくモダリティ間のアライメントモジュールを提案する。
サブドメイン超平面とモダリティ角マージンの両方を整列する双対アライメント最適化法を用いる。
論文 参考訳(メタデータ) (2025-03-01T10:12:00Z) - Rethinking Domain Generalization: Discriminability and Generalizability [31.967801550742312]
ドメイン一般化(DG)は、優れた識別可能性を維持しつつ、強力な一般化性を持つ堅牢なモデルを開発する。
DMDA(Distriminative Microscopic Distribution Alignment)という新しいフレームワークを提案する。
DMDAはSelective Channel Pruning(SCP)とMicro-level Distribution Alignment(MDA)の2つのコアコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2023-09-28T14:45:54Z) - Randomized Adversarial Style Perturbations for Domain Generalization [49.888364462991234]
本稿では,RASP(Randomized Adversarial Style Perturbation)と呼ばれる新しい領域一般化手法を提案する。
提案アルゴリズムは, ランダムに選択されたクラスに対して, 対角方向の特徴のスタイルを乱し, 予期せぬ対象領域で観測される予期せぬスタイルに誤解されないよう, モデルを学習させる。
提案アルゴリズムは,様々なベンチマークによる広範な実験により評価され,特に大規模ベンチマークにおいて,領域一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2023-04-04T17:07:06Z) - Global-Local Regularization Via Distributional Robustness [26.983769514262736]
ディープニューラルネットワークは、しばしば敵の例や分布シフトに弱い。
最近のアプローチでは、分散ロバストネス最適化(DRO)を利用して、最も難しい分布を見つける。
本稿では,Wasserstein をベースとした DRO フレームワークの後継として,新たな正規化手法を提案する。
論文 参考訳(メタデータ) (2022-03-01T15:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。