論文の概要: MMFakeBench: A Mixed-Source Multimodal Misinformation Detection Benchmark for LVLMs
- arxiv url: http://arxiv.org/abs/2406.08772v1
- Date: Thu, 13 Jun 2024 03:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 21:28:25.796555
- Title: MMFakeBench: A Mixed-Source Multimodal Misinformation Detection Benchmark for LVLMs
- Title(参考訳): MMFakeBench:LVLM用混在型マルチモーダル誤情報検出ベンチマーク
- Authors: Xuannan Liu, Zekun Li, Peipei Li, Shuhan Xia, Xing Cui, Linzhi Huang, Huaibo Huang, Weihong Deng, Zhaofeng He,
- Abstract要約: マルチモーダル誤報検出法は、しばしばサンプルごとに単一のソースと種類の偽造を仮定する。
混合ソースの誤情報に対するベンチマークが欠如していることは、この分野の進歩を妨げている。
MMFakeBenchは、ミックスソースMDDの最初の包括的なベンチマークである。
- 参考スコア(独自算出の注目度): 47.353720361676004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multimodal misinformation detection (MMD) methods often assume a single source and type of forgery for each sample, which is insufficient for real-world scenarios where multiple forgery sources coexist. The lack of a benchmark for mixed-source misinformation has hindered progress in this field. To address this, we introduce MMFakeBench, the first comprehensive benchmark for mixed-source MMD. MMFakeBench includes 3 critical sources: textual veracity distortion, visual veracity distortion, and cross-modal consistency distortion, along with 12 sub-categories of misinformation forgery types. We further conduct an extensive evaluation of 6 prevalent detection methods and 15 large vision-language models (LVLMs) on MMFakeBench under a zero-shot setting. The results indicate that current methods struggle under this challenging and realistic mixed-source MMD setting. Additionally, we propose an innovative unified framework, which integrates rationales, actions, and tool-use capabilities of LVLM agents, significantly enhancing accuracy and generalization. We believe this study will catalyze future research into more realistic mixed-source multimodal misinformation and provide a fair evaluation of misinformation detection methods.
- Abstract(参考訳): 現在のMultimodal misinformation Detection (MMD) 法は、複数の偽情報ソースが共存する現実のシナリオでは不十分な、サンプル毎に単一のソースとフォージェリーのタイプを仮定することが多い。
混合ソースの誤情報に対するベンチマークが欠如していることは、この分野の進歩を妨げている。
そこで我々はMMFakeBenchを紹介した。MMFakeBenchはミックスソースMDDの最初の包括的なベンチマークである。
MMFakeBenchには3つの重要なソースが含まれている: テキストの正確さの歪み、視覚的正確さの歪み、および横断的一貫性の歪み。
さらに,0ショット設定でMMFakeBench上で6つの一般的な検出手法と15の大規模視覚言語モデル(LVLM)を広範囲に評価する。
その結果,現状の手法は,この困難かつ現実的なMDD設定下では困難であることが示唆された。
さらに,LVLMエージェントの合理性,行動,ツール使用能力を統合し,精度と一般化を著しく向上する,革新的な統一フレームワークを提案する。
本研究は,より現実的な混在型マルチモーダル誤報の研究を触媒し,誤報検出手法の公正な評価を提供する。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network [19.466279425330857]
そこで我々は,LMA(Low-rank Modal Adaptors)と呼ばれる新しいマルチモーダル物体検出器を提案する。
作業は2024年4月にACM MMに提出されたが拒否された。
論文 参考訳(メタデータ) (2024-07-23T02:27:52Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Deep Metric Multi-View Hashing for Multimedia Retrieval [3.539519688102545]
本稿では,これらの問題に対処するため,DMMVH法を提案する。
MIR-Flickr25K, MS COCO, NUS-WIDEでは, 現在の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2023-04-13T09:25:35Z) - Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-11-07T14:27:38Z) - Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal
and Multimodal Representations [27.855467591358018]
マルチモーダル・インフォメーション・ボトルネック (MIB) を導入し, 強力かつ十分なマルチモーダル表現の学習を目指す。
情報制約の異なる視点に焦点を合わせるために,MIB の3つの変種,すなわちアーリーフュージョン MIB,レイトフュージョン MIB,フルMIB を開発した。
実験結果から,提案手法はマルチモーダル感情分析とマルチモーダル感情認識のタスクにおいて,最先端の性能に達することが示唆された。
論文 参考訳(メタデータ) (2022-10-31T16:14:18Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。