論文の概要: MultiCaption: Detecting disinformation using multilingual visual claims
- arxiv url: http://arxiv.org/abs/2601.11220v1
- Date: Fri, 16 Jan 2026 11:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.479196
- Title: MultiCaption: Detecting disinformation using multilingual visual claims
- Title(参考訳): MultiCaption:多言語視覚クレームを用いた偽情報検出
- Authors: Rafael Martins Frade, Rrubaa Panchendrarajan, Arkaitz Zubiaga,
- Abstract要約: 視覚的クレームの矛盾を検出するために特別に設計されたデータセットであるMultiCaptionを提案する。
結果として得られたデータセットは、64言語で11,088の視覚的クレームで構成されている。
マルチリンガルトレーニングとテストの成果は、効果的にマルチリンガルのファクトチェックパイプラインを構築するためのデータセットの可能性を強調している。
- 参考スコア(独自算出の注目度): 10.69065586825833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online disinformation poses an escalating threat to society, driven increasingly by the rapid spread of misleading content across both multimedia and multilingual platforms. While automated fact-checking methods have advanced in recent years, their effectiveness remains constrained by the scarcity of datasets that reflect these real-world complexities. To address this gap, we first present MultiCaption, a new dataset specifically designed for detecting contradictions in visual claims. Pairs of claims referring to the same image or video were labeled through multiple strategies to determine whether they contradict each other. The resulting dataset comprises 11,088 visual claims in 64 languages, offering a unique resource for building and evaluating misinformation-detection systems in truly multimodal and multilingual environments. We then provide comprehensive experiments using transformer-based architectures, natural language inference models, and large language models, establishing strong baselines for future research. The results show that MultiCaption is more challenging than standard NLI tasks, requiring task-specific finetuning for strong performance. Moreover, the gains from multilingual training and testing highlight the dataset's potential for building effective multilingual fact-checking pipelines without relying on machine translation.
- Abstract(参考訳): オンラインの偽情報は、マルチメディアプラットフォームと多言語プラットフォームの両方で誤解を招くコンテンツを急速に拡散させることによって、社会にエスカレートする脅威をもたらす。
自動化されたファクトチェック手法は近年進歩しているが、これらの実世界の複雑さを反映したデータセットの不足により、その効果は依然として制限されている。
このギャップに対処するために、視覚的クレームの矛盾を検出するために特別に設計された新しいデータセットであるMultiCaptionを最初に提示する。
同じ画像やビデオを指す主張のペアは、互いに矛盾するかどうかを判断する複数の戦略によってラベル付けされた。
結果として得られたデータセットは、64言語で11,088の視覚的クレームで構成され、真のマルチモーダルおよび多言語環境における誤情報検出システムの構築と評価のためのユニークなリソースを提供する。
次に、トランスフォーマーベースのアーキテクチャ、自然言語推論モデル、および大規模言語モデルを用いた包括的な実験を行い、将来の研究の強力なベースラインを確立する。
その結果,MultiCaptionは通常のNLIタスクよりも難易度が高く,タスク固有の微調整を必要とすることがわかった。
さらに、多言語トレーニングとテストのメリットは、マシン翻訳に頼ることなく、効果的な多言語ファクトチェックパイプラインを構築するためのデータセットの可能性を強調している。
関連論文リスト
- TowerVision: Understanding and Improving Multilinguality in Vision-Language Models [56.775118098058506]
TowerVisionは、画像テキストとビデオテキストの両方のためのオープンな多言語視覚言語モデルである。
微調整中に視覚的、文化的コンテキストを取り入れることで、私たちのモデルは既存のアプローチを超えます。
さらなる研究を支援するため、すべてのモデル、データ、トレーニングレシピを公開しています。
論文 参考訳(メタデータ) (2025-10-22T17:02:48Z) - Entity-aware Cross-lingual Claim Detection for Automated Fact-checking [7.242609314791262]
我々は,多言語クレームを扱うために,多言語クレームを適切に一般化するエンティティ対応言語間クレーム検出モデルであるEx-Claimを紹介する。
27言語にまたがる一貫したパフォーマンス向上と、トレーニング中に目に見えない言語間での堅牢な知識伝達を示す。
論文 参考訳(メタデータ) (2025-03-19T14:00:55Z) - Beyond Translation: LLM-Based Data Generation for Multilingual Fact-Checking [2.321323878201932]
MultiSynFactは、2.2Mのクレームソースペアを含む最初の大規模多言語ファクトチェックデータセットである。
我々のデータセット生成パイプラインはLarge Language Models (LLMs)を活用し、ウィキペディアの外部知識を統合する。
ユーザフレンドリーなフレームワークをオープンソースとして公開し、マルチリンガルなファクトチェックとデータセット生成のさらなる研究を支援します。
論文 参考訳(メタデータ) (2025-02-21T12:38:26Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。