論文の概要: Cross-Modal Dual-Causal Learning for Long-Term Action Recognition
- arxiv url: http://arxiv.org/abs/2507.06603v1
- Date: Wed, 09 Jul 2025 07:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.500827
- Title: Cross-Modal Dual-Causal Learning for Long-Term Action Recognition
- Title(参考訳): 長期的行動認識のためのクロスモーダルデュアル因果学習
- Authors: Xu Shaowu, Jia Xibin, Gao Junyu, Sun Qianmei, Chang Jing, Fan Chao,
- Abstract要約: 長期的行動認識(LTAR)は、複雑な原子的行動相関と視覚的共同創設者による時間的範囲の延長によって困難である。
本稿では,ビデオとラベルテキスト間の因果関係を明らかにするための構造因果モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term action recognition (LTAR) is challenging due to extended temporal spans with complex atomic action correlations and visual confounders. Although vision-language models (VLMs) have shown promise, they often rely on statistical correlations instead of causal mechanisms. Moreover, existing causality-based methods address modal-specific biases but lack cross-modal causal modeling, limiting their utility in VLM-based LTAR. This paper proposes \textbf{C}ross-\textbf{M}odal \textbf{D}ual-\textbf{C}ausal \textbf{L}earning (CMDCL), which introduces a structural causal model to uncover causal relationships between videos and label texts. CMDCL addresses cross-modal biases in text embeddings via textual causal intervention and removes confounders inherent in the visual modality through visual causal intervention guided by the debiased text. These dual-causal interventions enable robust action representations to address LTAR challenges. Experimental results on three benchmarks including Charades, Breakfast and COIN, demonstrate the effectiveness of the proposed model. Our code is available at https://github.com/xushaowu/CMDCL.
- Abstract(参考訳): 長期的行動認識(LTAR)は、複雑な原子的行動相関と視覚的共同創設者による時間的範囲の延長によって困難である。
視覚言語モデル(VLM)は将来性を示すが、しばしば因果メカニズムではなく統計的相関に依存する。
さらに、既存の因果関係に基づく手法は、モーダル固有のバイアスに対処するが、モーダル間の因果関係のモデリングが欠如しており、VLMベースのLTARでの有用性を制限している。
本稿では,ビデオとラベルテキスト間の因果関係を明らかにする構造因果モデルを提案する。
CMDCLはテキストの埋め込みにおいて、テキスト因果的介入を通じて相互に偏りに対処し、偏在したテキストによって導かれる視覚因果的介入を通じて、視覚的モダリティに固有の共同創設者を除去する。
これらの二重因果的介入により、堅牢なアクション表現がLTARの課題に対処できる。
Charades、Breakfast、COINの3つのベンチマーク実験の結果、提案モデルの有効性が示された。
私たちのコードはhttps://github.com/xushaowu/CMDCLで利用可能です。
関連論文リスト
- Deconfounded Reasoning for Multimodal Fake News Detection via Causal Intervention [16.607714608483164]
ソーシャルメディアの急速な成長は、複数のコンテンツ形式にまたがる偽ニュースの普及につながった。
従来の単モーダル検出手法は複雑なクロスモーダル操作に対処するには不十分である。
因果干渉に基づくマルチモーダルデコン検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-12T09:57:43Z) - Treble Counterfactual VLMs: A Causal Approach to Hallucination [6.3952983618258665]
VisionLanguage Models (VLM) には、画像キャプション、視覚的質問応答、推論といった高度なマルチモーダルタスクがある。
視覚的文脈やプロンプトと矛盾しない幻覚出力をしばしば生成する。
既存の研究では、幻覚は統計的バイアス、言語優先、偏見のある特徴学習と結びついているが、構造的な因果理解は欠如している。
論文 参考訳(メタデータ) (2025-03-08T11:13:05Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering [134.91774666260338]
既存の視覚的質問応答法は、しばしばクロスモーダルなスプリアス相関と過度に単純化されたイベントレベルの推論プロセスに悩まされる。
本稿では,イベントレベルの視覚的質問応答の課題に対処するために,モーダルな因果関係推論のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-26T04:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。