Fugu-MT 論文翻訳(概要): Multimodal Claim Extraction for Fact-Checking

論文の概要: Multimodal Claim Extraction for Fact-Checking

arxiv url: http://arxiv.org/abs/2604.16311v1
Date: Sun, 01 Feb 2026 05:21:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-04 02:32:13.872832
Title: Multimodal Claim Extraction for Fact-Checking
Title（参考訳）: Fact-Checkingのためのマルチモーダルクレーム抽出
Authors: Joycelyn Teo, Rui Cao, Zhenyun Deng, Zifeng Ding, Michael Sejr Schlichtkrull, Andreas Vlachos,
Abstract要約: ソーシャルメディアの投稿は、しばしば短い非公式のテキストとミーム、スクリーンショット、写真などの画像を組み合わせる。ソーシャルメディアからのマルチモーダルクレーム抽出のための最初のベンチマークを示す。 MICEは意図を意識したフレームワークであり、意図クリティカルなケースの改善を示す。
参考スコア（独自算出の注目度）: 19.014381377320817
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Automated Fact-Checking (AFC) relies on claim extraction as a first step, yet existing methods largely overlook the multimodal nature of today's misinformation. Social media posts often combine short, informal text with images such as memes, screenshots, and photos, creating challenges that differ from both text-only claim extraction and well-studied multimodal tasks like image captioning or visual question answering. In this work, we present the first benchmark for multimodal claim extraction from social media, consisting of posts containing text and one or more images, annotated with gold-standard claims derived from real-world fact-checkers. We evaluate state-of-the-art multimodal LLMs (MLLMs) under a three-part evaluation framework (semantic alignment, faithfulness, and decontextualization) and find that baseline MLLMs struggle to model rhetorical intent and contextual cues. To address this, we introduce MICE, an intent-aware framework which shows improvements in intent-critical cases.
Abstract（参考訳）: AFC (Automated Fact-Checking) は、クレーム抽出を第一歩としているが、既存の手法は、今日の誤報のマルチモーダルな性質をほとんど見落としている。ソーシャルメディアの投稿は、短い非公式なテキストとミーム、スクリーンショット、写真などの画像を組み合わせて、テキストのみのクレーム抽出と、画像キャプションや視覚的質問応答といったよく研究されたマルチモーダルタスクの両方とは異なる課題を生み出している。本研究では,実世界のファクトチェッカーから得られたゴールドスタンダードクレームを付加した,テキストと1つ以上の画像を含む投稿からなるソーシャルメディアからのマルチモーダルクレーム抽出のための最初のベンチマークを示す。我々は,3つの評価枠組み(セマンティックアライメント,忠実度,非コンテクスト化)の下で,最先端のマルチモーダルLLM(MLLM)を評価し,基本となるMLLMが修辞意図や文脈的手がかりのモデル化に苦慮していることを見出した。この問題に対処するため,本研究では,意図クリティカルケースの改善を示す意図認識フレームワークであるMICEを紹介する。

関連論文リスト

COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts [34.97838652946461]
COHERENCEは、MLLMがインターリーブされたコンテキストにおける微細な画像テキスト対応を回復する能力を評価するために設計されたベンチマークである。我々は、6種類の誤り解析を行い、インターリーブ画像テキスト理解における失敗の微粒化を可能とした。
論文参考訳（メタデータ） (2026-04-30T03:59:22Z)
MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval [23.52156477012636]
Composed Image Retrieval (CIR) は、参照画像と修正されたテキストに基づいてターゲット画像を取得することを目的としている。 CIRのためのMCoT-MVS(Multi-level Vision Selection)を提案する。
論文参考訳（メタデータ） (2026-03-18T04:49:19Z)
QG-CoC: Question-Guided Chain-of-Captions for Large Multimodal Models [50.51641024244313]
本稿では,複数の画像を扱う場合の視覚的情報処理について検討する。そこで本研究では,新たなゼロショットプロンプト手法であるQG-CoC(QG-CoC)を提案する。マルチイメージおよびシングルイメージベンチマークのための各種オープンソースおよびクローズドソースMLLMについて評価を行った。
論文参考訳（メタデータ） (2025-11-05T05:49:48Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文参考訳（メタデータ） (2024-10-02T16:55:01Z)
Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文参考訳（メタデータ） (2024-08-23T06:48:46Z)
Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。 TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-22T05:24:19Z)
A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking [17.847936914174543]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-19T03:15:50Z)
Open-Domain, Content-based, Multi-modal Fact-checking of Out-of-Context Images via Online Resources [70.68526820807402]
実際のイメージは、コンテキストや要素を誤って表現することによって、他の物語をサポートするために再目的化される。私たちのゴールは、画像とコンテキストのペアリングを事実チェックすることで、この時間を要する、推論集約的なプロセスを自動化する検査可能な方法です。私たちの研究は、オープンドメイン、コンテンツベース、マルチモーダルなファクトチェックのための最初のステップとベンチマークを提供します。
論文参考訳（メタデータ） (2021-11-30T19:36:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。