論文の概要: Evidence-Grounded Multimodal Misinformation Detection with Attention-Based GNNs
- arxiv url: http://arxiv.org/abs/2505.18221v1
- Date: Fri, 23 May 2025 08:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.227741
- Title: Evidence-Grounded Multimodal Misinformation Detection with Attention-Based GNNs
- Title(参考訳): 注意に基づくGNNによるマルチモーダル誤報検出の証拠化
- Authors: Sharad Duwal, Mir Nafis Sharear Shopnil, Abhishek Tyagi, Adiba Mahbub Proma,
- Abstract要約: マルチモーダル・アウト・オブ・コンテクスト(Multimodal Out-of-Context、OOC)の誤報は、非関連または誤解を招くキャプションで実際の画像を再利用する誤報である。
2つのグラフ表現を構築し,画像とキャプションの整合性を評価するグラフベース手法を提案する。
グラフニューラルネットワーク(GNN)を用いて、これらの表現を符号化し、比較する。
- 参考スコア(独自算出の注目度): 0.49998148477760973
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal out-of-context (OOC) misinformation is misinformation that repurposes real images with unrelated or misleading captions. Detecting such misinformation is challenging because it requires resolving the context of the claim before checking for misinformation. Many current methods, including LLMs and LVLMs, do not perform this contextualization step. LLMs hallucinate in absence of context or parametric knowledge. In this work, we propose a graph-based method that evaluates the consistency between the image and the caption by constructing two graph representations: an evidence graph, derived from online textual evidence, and a claim graph, from the claim in the caption. Using graph neural networks (GNNs) to encode and compare these representations, our framework then evaluates the truthfulness of image-caption pairs. We create datasets for our graph-based method, evaluate and compare our baseline model against popular LLMs on the misinformation detection task. Our method scores $93.05\%$ detection accuracy on the evaluation set and outperforms the second-best performing method (an LLM) by $2.82\%$, making a case for smaller and task-specific methods.
- Abstract(参考訳): マルチモーダル・アウト・オブ・コンテクスト(Multimodal Out-of-Context、OOC)の誤報は、非関連または誤解を招くキャプションで実際の画像を再利用する誤報である。
このような誤報を検出することは、誤報を確認する前にクレームのコンテキストを解決する必要があるため困難である。
LLMやLVLMなど、現在の多くの手法では、この文脈化のステップは実行されない。
LLMは文脈やパラメトリック知識がないと幻覚する。
本研究では,画像とキャプションの整合性を評価するグラフベースの手法を提案する。
グラフニューラルネットワーク(GNN)を用いて、これらの表現を符号化し、比較する。
我々は,グラフに基づく手法のためのデータセットを作成し,その誤情報検出タスクにおいて,一般的なLCMに対してベースラインモデルを評価し,比較する。
提案手法は,評価セットに対して93.05\%の精度で評価を行い,2番目に高い性能(LLM)を2.82\%の精度で向上させる。
関連論文リスト
- Can Visual Encoder Learn to See Arrows? [6.561578916344682]
画像エンコーダがエッジ表現を学習できるかどうかを図形データセット上で学習する。
そこで我々は,画像エンコーダを訓練するために,人工的に生成されたダイアグラム・キャプション・データセットに対してコントラスト学習を行う。
以上の結果から, 微調整モデルでは, プレトレーニング済みのCLIPよりも優れ, キャプションタスクではゼロショットGPT-4o, LLaVA-Mistralよりも優れていた。
論文 参考訳(メタデータ) (2025-05-26T13:09:31Z) - Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [75.9865035064794]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - IGDA: Interactive Graph Discovery through Large Language Model Agents [6.704529554100875]
大規模な言語モデル(textbfLLMs$)が発見の強力な方法として登場した。
我々は既存の数値駆動型手法を補完するグラフ発見のための強力な手法として$textbfIGDA$を提案する。
論文 参考訳(メタデータ) (2025-02-24T14:24:27Z) - Combining Knowledge Graph and LLMs for Enhanced Zero-shot Visual Question Answering [20.16172308719101]
ゼロショット視覚質問応答(ZS-VQA)は、トレーニングサンプルを提供することなく、視覚的な質問に答えることを目的としている。
ZS-VQAの既存の研究は、知識グラフや大規模言語モデル(LLM)を外部情報ソースとして活用することを提案した。
ゼロショット視覚質問応答のための知識グラフとLLMを組み合わせた新しい設計を提案する。
論文 参考訳(メタデータ) (2025-01-22T08:14:11Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - Learnable Graph Matching: A Practical Paradigm for Data Association [74.28753343714858]
これらの問題に対処するための一般的な学習可能なグラフマッチング法を提案する。
提案手法は,複数のMOTデータセット上での最先端性能を実現する。
画像マッチングでは,一般的な屋内データセットであるScanNetで最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-03-27T17:39:00Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - Learnable Graph Matching: Incorporating Graph Partitioning with Deep
Feature Learning for Multiple Object Tracking [58.30147362745852]
フレーム間のデータアソシエーションは、Multiple Object Tracking(MOT)タスクの中核にある。
既存の手法は、主にトラックレットとフレーム内検出の間のコンテキスト情報を無視する。
そこで本研究では,学習可能なグラフマッチング手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。