Fugu-MT 論文翻訳(概要): VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias

論文の概要: VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias

arxiv url: http://arxiv.org/abs/2304.14133v3
Date: Wed, 18 Oct 2023 13:19:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 13:21:08.406312
Title: VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias
Title（参考訳）: VERITE:一様バイアスに対するマルチモーダル誤情報検出会計のためのロバストベンチマーク
Authors: Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Panagiotis C. Petrantonakis
Abstract要約: マルチモーダルの誤報はソーシャルメディアのプラットフォームで増え続けている問題です本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
参考スコア（独自算出の注目度）: 17.107961913114778
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Multimedia content has become ubiquitous on social media platforms, leading to the rise of multimodal misinformation (MM) and the urgent need for effective strategies to detect and prevent its spread. In recent years, the challenge of multimodal misinformation detection (MMD) has garnered significant attention by researchers and has mainly involved the creation of annotated, weakly annotated, or synthetically generated training datasets, along with the development of various deep learning MMD models. However, the problem of unimodal bias has been overlooked, where specific patterns and biases in MMD benchmarks can result in biased or unimodal models outperforming their multimodal counterparts on an inherently multimodal task; making it difficult to assess progress. In this study, we systematically investigate and identify the presence of unimodal bias in widely-used MMD benchmarks, namely VMU-Twitter and COSMOS. To address this issue, we introduce the "VERification of Image-TExt pairs" (VERITE) benchmark for MMD which incorporates real-world data, excludes "asymmetric multimodal misinformation" and utilizes "modality balancing". We conduct an extensive comparative study with a Transformer-based architecture that shows the ability of VERITE to effectively address unimodal bias, rendering it a robust evaluation framework for MMD. Furthermore, we introduce a new method -- termed Crossmodal HArd Synthetic MisAlignment (CHASMA) -- for generating realistic synthetic training data that preserve crossmodal relations between legitimate images and false human-written captions. By leveraging CHASMA in the training process, we observe consistent and notable improvements in predictive performance on VERITE; with a 9.2% increase in accuracy. We release our code at: https://github.com/stevejpapad/image-text-verification
Abstract（参考訳）: マルチメディアコンテンツは、ソーシャルメディアプラットフォーム上で広く普及し、マルチモーダル誤報(MM)の台頭と、その拡散を検知し防止するための効果的な戦略の急激な要求につながっている。近年、マルチモーダル誤情報検出(mmd)の課題は研究者から大きな注目を集め、主に注釈付き、弱い注釈付き、あるいは合成的に生成されたトレーニングデータセットの作成や、様々なディープラーニングmmdモデルの開発に関わってきた。しかし、MDDベンチマークの特定のパターンやバイアスは、本質的にはマルチモーダルなタスクにおいて、そのマルチモーダルなモデルよりも偏りやユニモーダルなモデルよりも優れているため、進歩を評価するのが難しくなる。本研究では,VMU-Twitter や COSMOS など,広く使用されているMDD ベンチマークにおいて,一過性バイアスの存在を系統的に調査し,同定する。この問題に対処するために,実世界のデータを組み込んだMDDの"Verification of Image-TExt pairs"(VERITE)ベンチマークを導入し,非対称なマルチモーダル誤報を排除し,モダリティバランスを利用する。我々は,ユニモーダルバイアスに対して verite が効果的に対処できることを示すトランスフォーマティブベースのアーキテクチャとの比較研究を行い,mmd に対する堅牢な評価フレームワークとした。さらに,正規画像と偽人書き字幕との相互関係を保存したリアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。トレーニングプロセスでCHASMAを活用することで、VERITEにおける予測性能の一貫性と顕著な改善が観察され、精度は9.2%向上した。 https://github.com/stevejpapad/image-text-verification

関連論文リスト

MissMAC-Bench: Building Solid Benchmark for Missing Modality Issue in Robust Multimodal Affective Computing [21.70459049925545]
MissMAC-Benchは、公正で統一された評価基準を確立するために設計された総合的なベンチマークである。 2つの原則が提案されており、トレーニング中に欠席することはない。我々のベンチマークでは、データセットとインスタンスのレベルで、固定されたパターンとランダムなパターンの両方を評価プロトコルに統合しています。
論文参考訳（メタデータ） (2026-01-31T16:39:34Z)
Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification [10.875886838919]
Inference-time dynamic modality selection frameworkであるDyMoを提案する。 Central to DyMoは、各テストサンプルのタスク関連情報を最大化する新しい選択アルゴリズムである。様々な自然・医学的な画像データセットの実験により、DyMoは最先端の不完全/動的MDL法を著しく上回っている。
論文参考訳（メタデータ） (2026-01-30T11:24:43Z)
From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文参考訳（メタデータ） (2026-01-28T09:29:40Z)
Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline [56.790045049514326]
詐欺の2つの主要な形態は、人造誤報とAI生成コンテンツである。両形態の偽造を扱うためのフレームワークであるUMFDet(Unified Multimodal Fake Content Detection)を提案する。 UMFDetは、両方の誤情報型に対して堅牢で一貫したパフォーマンスを実現し、特殊ベースラインを上回っている。
論文参考訳（メタデータ） (2025-09-30T09:26:32Z)
GMM-Based Comprehensive Feature Extraction and Relative Distance Preservation For Few-Shot Cross-Modal Retrieval [13.928213494843744]
クロスモーダル検索は、限られたトレーニングサンプルを用いたクロスモーダル表現の学習に焦点を当てている。既存の手法では、数発のクロスモーダルデータのマルチピーク分布を適切にモデル化できない場合が多い。画像特徴量とテキスト特徴量との相対的距離を制約するクロスモーダルなセマンティックアライメントのための新しい戦略を導入する。
論文参考訳（メタデータ） (2025-05-19T16:25:55Z)
Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。 Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文参考訳（メタデータ） (2025-03-24T08:46:52Z)
PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。 PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文参考訳（メタデータ） (2025-01-16T08:04:04Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文参考訳（メタデータ） (2024-10-02T16:47:55Z)
Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文参考訳（メタデータ） (2024-08-16T16:14:36Z)
MMFakeBench: A Mixed-Source Multimodal Misinformation Detection Benchmark for LVLMs [47.353720361676004]
マルチモーダル誤報検出法は、しばしばサンプルごとに単一のソースと種類の偽造を仮定する。混合ソースの誤情報に対するベンチマークが欠如していることは、この分野の進歩を妨げている。 MMFakeBenchは、ミックスソースMDDの最初の包括的なベンチマークである。
論文参考訳（メタデータ） (2024-06-13T03:04:28Z)
NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。 NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-03-28T03:04:00Z)
Mutual Information Regularization for Weakly-supervised RGB-D Salient Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文参考訳（メタデータ） (2023-06-06T12:36:57Z)
Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。 HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文参考訳（メタデータ） (2023-05-23T01:24:15Z)
Synthetic Misinformers: Generating and Combating Multimodal Misinformation [11.696058634552147]
マルチモーダル誤情報検出(MMD)は、画像と付随するテキストの組み合わせが誤読や誤字を検知する。提案したCLIPベースの名前付きエンティティスワッピングは,マルチモーダル精度で他のOOCやNEIミスコンバータを上回り,MDDモデルに繋がることを示す。
論文参考訳（メタデータ） (2023-03-02T12:59:01Z)
Multi-Modal Mutual Information Maximization: A Novel Approach for Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文参考訳（メタデータ） (2021-12-13T08:58:03Z)
Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文参考訳（メタデータ） (2020-03-10T03:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。