論文の概要: Similarity over Factuality: Are we making progress on multimodal out-of-context misinformation detection?
- arxiv url: http://arxiv.org/abs/2407.13488v1
- Date: Thu, 18 Jul 2024 13:08:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-19 15:20:54.700380
- Title: Similarity over Factuality: Are we making progress on multimodal out-of-context misinformation detection?
- Title(参考訳): 相似性:マルチモーダル・アウト・オブ・コンテクストの誤情報検出は進んでいるか?
- Authors: Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Panagiotis C. Petrantonakis,
- Abstract要約: アウト・オブ・コンテクスト(OOC)の誤報は、マルチモーダルな事実チェックにおいて重大な課題となる。
証拠に基づくOOC検出の最近の研究は、ますます複雑なアーキテクチャへと向かっている。
画像テキスト対と外部画像とテキストエビデンスとの類似性を評価する。
- 参考スコア(独自算出の注目度): 15.66049149213069
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Out-of-context (OOC) misinformation poses a significant challenge in multimodal fact-checking, where images are paired with texts that misrepresent their original context to support false narratives. Recent research in evidence-based OOC detection has seen a trend towards increasingly complex architectures, incorporating Transformers, foundation models, and large language models. In this study, we introduce a simple yet robust baseline, which assesses MUltimodal SimilaritiEs (MUSE), specifically the similarity between image-text pairs and external image and text evidence. Our results demonstrate that MUSE, when used with conventional classifiers like Decision Tree, Random Forest, and Multilayer Perceptron, can compete with and even surpass the state-of-the-art on the NewsCLIPpings and VERITE datasets. Furthermore, integrating MUSE in our proposed "Attentive Intermediate Transformer Representations" (AITR) significantly improved performance, by 3.3% and 7.5% on NewsCLIPpings and VERITE, respectively. Nevertheless, the success of MUSE, relying on surface-level patterns and shortcuts, without examining factuality and logical inconsistencies, raises critical questions about how we define the task, construct datasets, collect external evidence and overall, how we assess progress in the field. We release our code at: https://github.com/stevejpapad/outcontext-misinfo-progress
- Abstract(参考訳): アウト・オブ・コンテクスト(OOC)の誤報は、虚偽の物語をサポートするために、画像が元の文脈を誤って表現するテキストとペアリングされるマルチモーダルなファクトチェックにおいて、重大な課題となる。
証拠に基づくOCO検出の最近の研究は、トランスフォーマー、基礎モデル、および大規模言語モデルを導入し、ますます複雑なアーキテクチャへと向かっている。
本研究では,MUSE(MUltimodal SimilaritiEs)と外部画像とテキストエビデンスとの類似性を評価する,シンプルだが頑健なベースラインを提案する。
その結果、MUSEは、決定木、ランダムフォレスト、マルチレイヤーパーセプトロンといった従来の分類器と併用することで、NewsCLIPpingsおよびVERITEデータセットの最先端技術と競合し、さらに超えることができることを示した。
さらに,提案したAITR(Attentive Intermediate Transformer Representations)にMUSEを統合することで,NewsCLIPpingsとVERITEでそれぞれ3.3%,7.5%向上した。
それでも、MUSEの成功は、表面的なパターンやショートカットに依存し、事実や論理的な矛盾を検査することなく、どのようにタスクを定義し、データセットを構築し、外部のエビデンスを収集し、どのように現場の進捗を評価するかについて批判的な疑問を提起する。
https://github.com/stevejpapad/outcontext-misinfo-progress
関連論文リスト
- Mixed Signals: Decoding VLMs' Reasoning and Underlying Bias in Vision-Language Conflict [3.9495397165148023]
本稿では,視覚言語モデル(VLM)が画像とテキストの相反するシナリオに直面する場合の理由を示す。
我々の分析では、VLMはより単純なクエリでテキストを好むが、クエリの複雑さが増大するにつれて画像にシフトする。
さらに、簡単なプロンプト修正、矛盾する情報を扱うためのモデルを明確に指示する修正という3つの緩和戦略についても検討する。
論文 参考訳(メタデータ) (2025-04-11T20:56:52Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Vision-Language Models Struggle to Align Entities across Modalities [13.100184125419695]
クロスモーダルなエンティティリンクは、マルチモーダルコード生成のような現実世界のアプリケーションに必要な基本的なスキルである。
我々のベンチマークであるMATEは5.5kの評価インスタンスで構成されており、視覚シーンはテキスト表現と一致している。
現状のビジョン・ランゲージ・モデル(VLM)と人間をこの課題で評価し,VLMが人間と比べ有意に苦労していることを見いだした。
論文 参考訳(メタデータ) (2025-03-05T19:36:43Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - A Reality Check on Context Utilisation for Retrieval-Augmented Generation [44.54803681476863]
DRUID (Dataset of Retrieved Untrieved Unliable, Insufficient and Difficult-to-understand contexts) を導入し、実世界のクエリやコンテキストを手動でアノテートする。
このデータセットは、現実世界の証拠の自動検索が不可欠である自動クレーム検証のタスクに基づいている。
合成データセットは、実検索データで稀な文脈特性を誇張し、拡張された文脈利用結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-12-22T14:16:38Z) - Enhancing Multimodal Sentiment Analysis for Missing Modality through Self-Distillation and Unified Modality Cross-Attention [45.31956918333587]
マルチモーダルな感情分析では、テキストデータの収集はビデオやオーディオよりも難しいことが多い。
我々は,テキストのモダリティがなくても,マルチモーダルな感情情報を統合する頑健なモデルを開発した。
論文 参考訳(メタデータ) (2024-10-19T07:59:41Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Open-Domain, Content-based, Multi-modal Fact-checking of Out-of-Context
Images via Online Resources [70.68526820807402]
実際のイメージは、コンテキストや要素を誤って表現することによって、他の物語をサポートするために再目的化される。
私たちのゴールは、画像とコンテキストのペアリングを事実チェックすることで、この時間を要する、推論集約的なプロセスを自動化する検査可能な方法です。
私たちの研究は、オープンドメイン、コンテンツベース、マルチモーダルなファクトチェックのための最初のステップとベンチマークを提供します。
論文 参考訳(メタデータ) (2021-11-30T19:36:20Z) - FiLMing Multimodal Sarcasm Detection with Attention [0.7340017786387767]
サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。
本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。
提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T06:33:29Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。