論文の概要: DMC-CF: Dynamic Multimodal CounterFactual QA benchmark for Causal Reasoning
- arxiv url: http://arxiv.org/abs/2605.29339v1
- Date: Thu, 28 May 2026 04:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.728254
- Title: DMC-CF: Dynamic Multimodal CounterFactual QA benchmark for Causal Reasoning
- Title(参考訳): DMC-CF:因果推論のための動的マルチモーダル対実QAベンチマーク
- Authors: Junzhe Zhang, Huixuan Zhang, Guirong Wang, Xingyao Zhang, Pei Liu, Lin Qu, Hu Wei, Xiaojun Wan,
- Abstract要約: マルチモーダル言語モデル(MLLM)は、ますます強力なマルチモーダル機能を示している。
近年,多くのマルチモーダル因果推論データセットが提案されている。
これらのデータセットは、スケールに制限されているか、合成画像やビデオ、漫画ベースのコンテンツ、あるいは他の非現実的なマルチモーダルソースから構築されている。
- 参考スコア(独自算出の注目度): 34.95793005211704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of multimodal large language models (MLLMs), models have demonstrated increasingly powerful multimodal capabilities. However, whether MLLMs trained through statistical learning can truly understand the causal relationships underlying the real world remains a key research question. In recent years, numerous multimodal causal reasoning datasets have been proposed. Nevertheless, these datasets are either limited in scale or constructed from synthetic images and videos, cartoon-based content, or other non-realistic multimodal sources. To address these limitations, we collect real-world videos and construct DMC-CF-Static, a large-scale benchmark for multimodal causal counterfactual reasoning. Furthermore, to mitigate issues such as data contamination in traditional static evaluation, we represent causal events using causal graphs and propose the Dynamic Graph Intervention (DGI) framework to build the dynamic evaluation benchmark DMC-CF-Dynamic from DMC-CF-Static. Experimental results on the overall DMC-CF, which includes both static and dynamic evaluation benchmarks, demonstrate that the multimodal causal reasoning capabilities of current multimodal large language models in real-world scenarios still require substantial improvement.
- Abstract(参考訳): MLLM(Multimodal large language model)の急速な進歩により、モデルはますます強力なマルチモーダル機能を示すようになった。
しかし、統計的学習によって訓練されたMLLMが、現実世界の根底にある因果関係を真に理解できるかどうかは重要な研究課題である。
近年,多くのマルチモーダル因果推論データセットが提案されている。
しかしながら、これらのデータセットはスケールに制限されているか、合成画像やビデオ、漫画ベースのコンテンツ、あるいは他の非現実的なマルチモーダルソースから構築されている。
これらの制約に対処するため,実世界のビデオを収集し,マルチモーダル因果逆推論のための大規模ベンチマークであるDMC-CF-Staticを構築した。
さらに、従来の静的評価におけるデータ汚染などの問題を緩和するために、因果グラフを用いた因果事象を表現し、動的グラフ干渉(DGI)フレームワークを提案し、DMC-CF-Staticから動的評価ベンチマークDMC-CF-Dynamicを構築する。
静的および動的評価ベンチマークを含むDMC-CF全体の実験結果は、実世界のシナリオにおける現在のマルチモーダル大言語モデルのマルチモーダル因果推論能力が依然として大幅に改善する必要があることを証明している。
関連論文リスト
- Learning Multimodal Energy-Based Model with Multimodal Variational Auto-Encoder via MCMC Revision [9.644873133156656]
マルチモーダルEMM,共有潜時発生器,共同推論モデルの学習問題について検討した。
我々はESMサンプリングの強い初期状態として機能するコヒーレントなマルチモーダルサンプルを作成することを学ぶ。
論文 参考訳(メタデータ) (2026-05-01T13:25:11Z) - MMhops-R1: Multimodal Multi-hop Reasoning [89.68086555694084]
マルチモーダルマルチホップ推論の評価と育成を目的とした新しいベンチマークであるMMhopを紹介した。
MMhopsデータセットは、ブリッジと比較という2つの困難なタスクフォーマットで構成されている。
動的推論のための新しいマルチモーダル検索拡張フレームワークMMhops-R1を提案する。
論文 参考訳(メタデータ) (2025-12-15T17:29:02Z) - Revealing Multimodal Causality with Large Language Models [80.95511545591107]
非構造化データからマルチモーダル因果発見のための新しいフレームワークであるMLLM-CDを提案する。
本研究は,(1)真のマルチモーダル因子を同定する新しいコントラッシブ・ファクター発見モジュール,(2)発見要因間の因果関係を推測する統計的因果構造発見モジュール,(3)発見結果を洗練するための反復的マルチモーダル・カウンターファクト・推論モジュールの3つの重要な構成要素から構成される。
合成と実世界の両方のデータセットに対する大規模な実験は、提案したMLLM-CDの有効性を実証している。
論文 参考訳(メタデータ) (2025-09-22T13:45:17Z) - The Multimodal Paradox: How Added and Missing Modalities Shape Bias and Performance in Multimodal AI [0.0]
マルチモーダル学習は、高い意思決定において、単調な学習よりも優れていることが証明されている。
パフォーマンス向上は、マルチモーダルシステムを評価するためのゴールドスタンダードのままだが、バイアスやロバスト性に関する懸念はしばしば見過ごされている。
論文 参考訳(メタデータ) (2025-05-05T20:42:44Z) - The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models [31.81567038783558]
マルチモーダル・リワードモデル(MM-RM)は,大規模言語モデル(LLM)と人間の嗜好の整合に不可欠である。
MM-RMは、不動の突発的相関に依存するため、アウト・オブ・ディストリビューションデータへの一般化に苦慮することが多い。
本稿では,この問題を動的にトレーニングサンプルを再重み付けすることで軽減する,ショートカット対応MM-RM学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-05T02:37:41Z) - PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。
重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。
PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文 参考訳(メタデータ) (2025-01-16T08:04:04Z) - Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.05486269607166]
マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。
マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。
我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文 参考訳(メタデータ) (2024-11-06T10:44:15Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Continual Multimodal Knowledge Graph Construction [62.77243705682985]
現在のマルチモーダル知識グラフ構築(MKGC)モデルは、絶え間なく出現する実体と関係の現実的なダイナミズムに苦慮している。
本研究では,連続的なMKGCドメインの開発を促進するためのベンチマークを紹介する。
マルチメディアデータ処理における既存のMKGCアプローチの欠点を克服するMSPTフレームワークを導入する。
論文 参考訳(メタデータ) (2023-05-15T14:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。