論文の概要: XFacta: Contemporary, Real-World Dataset and Evaluation for Multimodal Misinformation Detection with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2508.09999v1
- Date: Mon, 04 Aug 2025 14:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.187833
- Title: XFacta: Contemporary, Real-World Dataset and Evaluation for Multimodal Misinformation Detection with Multimodal LLMs
- Title(参考訳): XFacta: 現代実世界のデータセットとマルチモーダルLCMを用いたマルチモーダル誤情報検出のための評価
- Authors: Yuzhuo Xiao, Zeyu Han, Yuhan Wang, Huaizu Jiang,
- Abstract要約: マルチモーダル大言語モデル (MLLM) はこの課題に対処する可能性を示している。
既存のベンチマークには時代遅れのイベントが含まれており、評価バイアスにつながる。
我々は,MLLMに基づく検出器の評価に適した,現代の実世界のデータセットであるXFactaを紹介する。
- 参考スコア(独自算出の注目度): 7.535905996650162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid spread of multimodal misinformation on social media calls for more effective and robust detection methods. Recent advances leveraging multimodal large language models (MLLMs) have shown the potential in addressing this challenge. However, it remains unclear exactly where the bottleneck of existing approaches lies (evidence retrieval v.s. reasoning), hindering the further advances in this field. On the dataset side, existing benchmarks either contain outdated events, leading to evaluation bias due to discrepancies with contemporary social media scenarios as MLLMs can simply memorize these events, or artificially synthetic, failing to reflect real-world misinformation patterns. Additionally, it lacks comprehensive analyses of MLLM-based model design strategies. To address these issues, we introduce XFacta, a contemporary, real-world dataset that is better suited for evaluating MLLM-based detectors. We systematically evaluate various MLLM-based misinformation detection strategies, assessing models across different architectures and scales, as well as benchmarking against existing detection methods. Building on these analyses, we further enable a semi-automatic detection-in-the-loop framework that continuously updates XFacta with new content to maintain its contemporary relevance. Our analysis provides valuable insights and practices for advancing the field of multimodal misinformation detection. The code and data have been released.
- Abstract(参考訳): ソーシャルメディア上でのマルチモーダル誤報の急速な拡散により、より効果的で堅牢な検出方法が求められている。
マルチモーダル大言語モデル(MLLM)を活用した最近の進歩は、この問題に対処する可能性を示している。
しかし、既存のアプローチのボトルネックがどこにあるのかははっきりしない(エビデンス検索対推論)ため、この分野のさらなる進歩を妨げている。
データセット側では、既存のベンチマークには時代遅れのイベントが含まれており、MLLMはこれらのイベントを単に記憶したり、人工的に合成したりして、現実世界の誤情報パターンを反映できないため、現代のソーシャルメディアシナリオとの相違による評価バイアスにつながる。
さらに、MLLMベースのモデル設計戦略の包括的な分析を欠いている。
これらの問題に対処するために、MLLMベースの検出器を評価するのにより適した、現代の実世界のデータセットであるXFactaを紹介する。
MLLMに基づく様々な誤情報検出戦略を体系的に評価し、アーキテクチャやスケールの異なるモデルの評価を行い、既存の検出手法に対するベンチマークを行った。
これらの分析に基づいて、XFactaを新しいコンテンツで継続的に更新し、その現代的関連性を維持するセミオートマチック・イン・ザ・ループ・フレームワークを実現する。
我々の分析は、多モーダル誤情報検出の分野を前進させるための貴重な洞察と実践を提供する。
コードとデータがリリースされた。
関連論文リスト
- LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - Survey on AI-Generated Media Detection: From Non-MLLM to MLLM [51.91311158085973]
AI生成メディアを検出する方法は急速に進化してきた。
MLLMに基づく汎用検出器は、信頼性検証、説明可能性、ローカライゼーション機能を統合する。
倫理的・セキュリティ的な配慮が、重要な世界的な懸念として浮上している。
論文 参考訳(メタデータ) (2025-02-07T12:18:20Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。
また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。
以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-22T23:32:42Z) - MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。
本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。
以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-24T20:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。