論文の概要: VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias
- arxiv url: http://arxiv.org/abs/2304.14133v3
- Date: Wed, 18 Oct 2023 13:19:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 13:21:08.406312
- Title: VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias
- Title(参考訳): VERITE:一様バイアスに対するマルチモーダル誤情報検出会計のためのロバストベンチマーク
- Authors: Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos,
Panagiotis C. Petrantonakis
- Abstract要約: マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
- 参考スコア(独自算出の注目度): 17.107961913114778
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimedia content has become ubiquitous on social media platforms, leading
to the rise of multimodal misinformation (MM) and the urgent need for effective
strategies to detect and prevent its spread. In recent years, the challenge of
multimodal misinformation detection (MMD) has garnered significant attention by
researchers and has mainly involved the creation of annotated, weakly
annotated, or synthetically generated training datasets, along with the
development of various deep learning MMD models. However, the problem of
unimodal bias has been overlooked, where specific patterns and biases in MMD
benchmarks can result in biased or unimodal models outperforming their
multimodal counterparts on an inherently multimodal task; making it difficult
to assess progress. In this study, we systematically investigate and identify
the presence of unimodal bias in widely-used MMD benchmarks, namely VMU-Twitter
and COSMOS. To address this issue, we introduce the "VERification of Image-TExt
pairs" (VERITE) benchmark for MMD which incorporates real-world data, excludes
"asymmetric multimodal misinformation" and utilizes "modality balancing". We
conduct an extensive comparative study with a Transformer-based architecture
that shows the ability of VERITE to effectively address unimodal bias,
rendering it a robust evaluation framework for MMD. Furthermore, we introduce a
new method -- termed Crossmodal HArd Synthetic MisAlignment (CHASMA) -- for
generating realistic synthetic training data that preserve crossmodal relations
between legitimate images and false human-written captions. By leveraging
CHASMA in the training process, we observe consistent and notable improvements
in predictive performance on VERITE; with a 9.2% increase in accuracy. We
release our code at: https://github.com/stevejpapad/image-text-verification
- Abstract(参考訳): マルチメディアコンテンツは、ソーシャルメディアプラットフォーム上で広く普及し、マルチモーダル誤報(MM)の台頭と、その拡散を検知し防止するための効果的な戦略の急激な要求につながっている。
近年、マルチモーダル誤情報検出(mmd)の課題は研究者から大きな注目を集め、主に注釈付き、弱い注釈付き、あるいは合成的に生成されたトレーニングデータセットの作成や、様々なディープラーニングmmdモデルの開発に関わってきた。
しかし、MDDベンチマークの特定のパターンやバイアスは、本質的にはマルチモーダルなタスクにおいて、そのマルチモーダルなモデルよりも偏りやユニモーダルなモデルよりも優れているため、進歩を評価するのが難しくなる。
本研究では,VMU-Twitter や COSMOS など,広く使用されているMDD ベンチマークにおいて,一過性バイアスの存在を系統的に調査し,同定する。
この問題に対処するために,実世界のデータを組み込んだMDDの"Verification of Image-TExt pairs"(VERITE)ベンチマークを導入し,非対称なマルチモーダル誤報を排除し,モダリティバランスを利用する。
我々は,ユニモーダルバイアスに対して verite が効果的に対処できることを示すトランスフォーマティブベースのアーキテクチャとの比較研究を行い,mmd に対する堅牢な評価フレームワークとした。
さらに,正規画像と偽人書き字幕との相互関係を保存したリアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
トレーニングプロセスでCHASMAを活用することで、VERITEにおける予測性能の一貫性と顕著な改善が観察され、精度は9.2%向上した。
https://github.com/stevejpapad/image-text-verification
関連論文リスト
- Mutual Information Regularization for Weakly-supervised RGB-D Salient
Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。
モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文 参考訳(メタデータ) (2023-06-06T12:36:57Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition [73.80088682784587]
MMG(Multimodal Generalization)は,特定のモダリティのデータに制限がある場合,あるいは完全に欠落する場合に,システムがどのように一般化できるかを研究することを目的としている。
MMGは2つの新しいシナリオで構成され、現実のアプリケーションにおけるセキュリティと効率の考慮をサポートするように設計されている。
新しい融合モジュールは、モダリティのドロップアウトトレーニング、コントラストベースのアライメントトレーニング、そして新しいクロスモーダル損失により、より優れた数ショット性能を実現した。
論文 参考訳(メタデータ) (2023-05-12T03:05:40Z) - Synthetic Misinformers: Generating and Combating Multimodal
Misinformation [11.696058634552147]
マルチモーダル誤情報検出(MMD)は、画像と付随するテキストの組み合わせが誤読や誤字を検知する。
提案したCLIPベースの名前付きエンティティスワッピングは,マルチモーダル精度で他のOOCやNEIミスコンバータを上回り,MDDモデルに繋がることを示す。
論文 参考訳(メタデータ) (2023-03-02T12:59:01Z) - IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via
Sequence Modeling [3.867363075280544]
マルチモーダル知識グラフリンク予測は,マルチモーダルデータに対するリンク予測タスクの精度と効率を向上させることを目的としている。
シーケンスモデリングによる解釈可能なマルチモーダル知識グラフアンサー予測(IMKGA-SM)の開発
モデルは、異なるサイズのマルチモーダルリンク予測データセットに基づいて、SOTAベースラインよりもはるかに優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-06T10:08:11Z) - Robustness of Fusion-based Multimodal Classifiers to Cross-Modal Content
Dilutions [27.983902791798965]
画像と既存のテキストとの関連性やトピックのコヒーレンスを維持する希釈テキストを生成するモデルを開発する。
その結果,タスク固有の融合型マルチモーダル分類器の性能はそれぞれ23.3%,22.5%低下することがわかった。
我々の研究は、深いマルチモーダルモデルの現実的な変動に対する堅牢性について、さらなる研究をハイライトし、奨励することを目的としている。
論文 参考訳(メタデータ) (2022-11-04T17:58:02Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。