論文の概要: Figments and Misalignments: A Framework for Fine-grained Crossmodal
Misinformation Detection
- arxiv url: http://arxiv.org/abs/2304.14133v1
- Date: Thu, 27 Apr 2023 12:28:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 13:29:22.025559
- Title: Figments and Misalignments: A Framework for Fine-grained Crossmodal
Misinformation Detection
- Title(参考訳): figments and misalignments: きめ細かなクロスモーダル情報検出のための枠組み
- Authors: Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos,
Panagiotis C. Petrantonakis
- Abstract要約: CMM (CrossModal Misinformation) は、画像キャプチャーのペアが嘘を広めるために一緒に働く場所である。
非対称なマルチモーダル誤報 (AMM) がトレーニングおよび評価プロセスにノイズを付加し, 単調なバイアスを悪化させることを示した。
本稿では,正規画像と偽字幕との相互関係を維持するリアルな合成学習データを生成する手法を提案する。
- 参考スコア(独自算出の注目度): 11.696058634552147
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimedia content has become ubiquitous on social media platforms, leading
to the rise of multimodal misinformation and the urgent need for effective
strategies to detect and prevent its spread. This study focuses on CrossModal
Misinformation (CMM) where image-caption pairs work together to spread
falsehoods. We contrast CMM with Asymmetric Multimodal Misinformation (AMM),
where one dominant modality propagates falsehoods while other modalities have
little or no influence. We show that AMM adds noise to the training and
evaluation process while exacerbating the unimodal bias, where text-only or
image-only detectors can seemingly outperform their multimodal counterparts on
an inherently multimodal task. To address this issue, we collect and curate
FIGMENTS, a robust evaluation benchmark for CMM, which consists of real world
cases of misinformation, excludes AMM and utilizes modality balancing to
successfully alleviate unimodal bias. FIGMENTS also provides a first step
towards fine-grained CMM detection by including three classes: truthful,
out-of-context, and miscaptioned image-caption pairs. Furthermore, we introduce
a method for generating realistic synthetic training data that maintains
crossmodal relations between legitimate images and false human-written captions
that we term Crossmodal HArd Synthetic MisAlignment (CHASMA). We conduct
extensive comparative study using a Transformer-based architecture. Our results
show that incorporating CHASMA in conjunction with other generated datasets
consistently improved the overall performance on FIGMENTS in both binary
(+6.26%) and multiclass settings (+15.8%).We release our code at:
https://github.com/stevejpapad/figments-and-misalignments
- Abstract(参考訳): マルチメディアコンテンツはソーシャルメディアプラットフォーム上で広く普及し、マルチモーダルな誤った情報や、その拡散を検知し防止するための効果的な戦略の必要性が急速に高まっている。
本研究では,イメージとキャプチャのペアが連携して偽りを広めるクロスモーダル誤報(cmm)に着目した。
我々は,cmmと非対称マルチモーダル誤情報(asymmetric multimodal misinformation, amm)の対比を行った。
ammは、テキストのみまたは画像のみの検出器が本質的にマルチモーダルなタスクにおいて、マルチモーダルな対象を上回ることができるユニモーダルバイアスを悪化させながら、トレーニングと評価プロセスにノイズを追加する。
この問題に対処するため,実世界の誤報事例からなるCMMの頑健な評価ベンチマークであるFIGMENTSを収集・キュレートし,AMMを除外し,モダリティバランスを利用して不動バイアスを軽減した。
figmentsはまた、trueful、out-of-context、miscaptioned image-captionの3つのクラスを含むことで、きめ細かいcmm検出への第一歩を提供する。
さらに,Crossmodal HArd Synthetic MisAlignment (CHASMA) と呼ぶ正像と偽人書き字幕との相互関係を維持するリアルな合成トレーニングデータを生成する手法を提案する。
トランスベースアーキテクチャを用いた大規模比較研究を行う。
その結果、CHASMAを他の生成されたデータセットと組み合わせることで、バイナリ(+6.26%)とマルチクラス設定(+15.8%)の両方で、FIGMENTSの全体的なパフォーマンスが一貫して改善された。
コードはhttps://github.com/stevejpapad/figments-and-misalignmentsでリリースします。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - MMFakeBench: A Mixed-Source Multimodal Misinformation Detection Benchmark for LVLMs [47.353720361676004]
マルチモーダル誤報検出法は、しばしばサンプルごとに単一のソースと種類の偽造を仮定する。
混合ソースの誤情報に対するベンチマークが欠如していることは、この分野の進歩を妨げている。
MMFakeBenchは、ミックスソースMDDの最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-13T03:04:28Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Mutual Information Regularization for Weakly-supervised RGB-D Salient
Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。
モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文 参考訳(メタデータ) (2023-06-06T12:36:57Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Synthetic Misinformers: Generating and Combating Multimodal
Misinformation [11.696058634552147]
マルチモーダル誤情報検出(MMD)は、画像と付随するテキストの組み合わせが誤読や誤字を検知する。
提案したCLIPベースの名前付きエンティティスワッピングは,マルチモーダル精度で他のOOCやNEIミスコンバータを上回り,MDDモデルに繋がることを示す。
論文 参考訳(メタデータ) (2023-03-02T12:59:01Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。