論文の概要: Similarity over Factuality: Are we making progress on multimodal out-of-context misinformation detection?
- arxiv url: http://arxiv.org/abs/2407.13488v1
- Date: Thu, 18 Jul 2024 13:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 15:20:54.700380
- Title: Similarity over Factuality: Are we making progress on multimodal out-of-context misinformation detection?
- Title(参考訳): 相似性:マルチモーダル・アウト・オブ・コンテクストの誤情報検出は進んでいるか?
- Authors: Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Panagiotis C. Petrantonakis,
- Abstract要約: アウト・オブ・コンテクスト(OOC)の誤報は、マルチモーダルな事実チェックにおいて重大な課題となる。
証拠に基づくOOC検出の最近の研究は、ますます複雑なアーキテクチャへと向かっている。
画像テキスト対と外部画像とテキストエビデンスとの類似性を評価する。
- 参考スコア(独自算出の注目度): 15.66049149213069
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Out-of-context (OOC) misinformation poses a significant challenge in multimodal fact-checking, where images are paired with texts that misrepresent their original context to support false narratives. Recent research in evidence-based OOC detection has seen a trend towards increasingly complex architectures, incorporating Transformers, foundation models, and large language models. In this study, we introduce a simple yet robust baseline, which assesses MUltimodal SimilaritiEs (MUSE), specifically the similarity between image-text pairs and external image and text evidence. Our results demonstrate that MUSE, when used with conventional classifiers like Decision Tree, Random Forest, and Multilayer Perceptron, can compete with and even surpass the state-of-the-art on the NewsCLIPpings and VERITE datasets. Furthermore, integrating MUSE in our proposed "Attentive Intermediate Transformer Representations" (AITR) significantly improved performance, by 3.3% and 7.5% on NewsCLIPpings and VERITE, respectively. Nevertheless, the success of MUSE, relying on surface-level patterns and shortcuts, without examining factuality and logical inconsistencies, raises critical questions about how we define the task, construct datasets, collect external evidence and overall, how we assess progress in the field. We release our code at: https://github.com/stevejpapad/outcontext-misinfo-progress
- Abstract(参考訳): アウト・オブ・コンテクスト(OOC)の誤報は、虚偽の物語をサポートするために、画像が元の文脈を誤って表現するテキストとペアリングされるマルチモーダルなファクトチェックにおいて、重大な課題となる。
証拠に基づくOCO検出の最近の研究は、トランスフォーマー、基礎モデル、および大規模言語モデルを導入し、ますます複雑なアーキテクチャへと向かっている。
本研究では,MUSE(MUltimodal SimilaritiEs)と外部画像とテキストエビデンスとの類似性を評価する,シンプルだが頑健なベースラインを提案する。
その結果、MUSEは、決定木、ランダムフォレスト、マルチレイヤーパーセプトロンといった従来の分類器と併用することで、NewsCLIPpingsおよびVERITEデータセットの最先端技術と競合し、さらに超えることができることを示した。
さらに,提案したAITR(Attentive Intermediate Transformer Representations)にMUSEを統合することで,NewsCLIPpingsとVERITEでそれぞれ3.3%,7.5%向上した。
それでも、MUSEの成功は、表面的なパターンやショートカットに依存し、事実や論理的な矛盾を検査することなく、どのようにタスクを定義し、データセットを構築し、外部のエビデンスを収集し、どのように現場の進捗を評価するかについて批判的な疑問を提起する。
https://github.com/stevejpapad/outcontext-misinfo-progress
関連論文リスト
- NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Open-Domain, Content-based, Multi-modal Fact-checking of Out-of-Context
Images via Online Resources [70.68526820807402]
実際のイメージは、コンテキストや要素を誤って表現することによって、他の物語をサポートするために再目的化される。
私たちのゴールは、画像とコンテキストのペアリングを事実チェックすることで、この時間を要する、推論集約的なプロセスを自動化する検査可能な方法です。
私たちの研究は、オープンドメイン、コンテンツベース、マルチモーダルなファクトチェックのための最初のステップとベンチマークを提供します。
論文 参考訳(メタデータ) (2021-11-30T19:36:20Z) - FiLMing Multimodal Sarcasm Detection with Attention [0.7340017786387767]
サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。
本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。
提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T06:33:29Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。