論文の概要: Towards Explainable Bilingual Multimodal Misinformation Detection and Localization
- arxiv url: http://arxiv.org/abs/2506.22930v1
- Date: Sat, 28 Jun 2025 15:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.634422
- Title: Towards Explainable Bilingual Multimodal Misinformation Detection and Localization
- Title(参考訳): 説明可能なバイリンガル・マルチモーダル誤情報検出と局所化に向けて
- Authors: Yiwei He, Xiangtai Li, Zhenglin Huang, Yi Dong, Hao Fei, Jiangning Zhang, Baoyuan Wu, Guangliang Cheng,
- Abstract要約: BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。
BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。
BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
- 参考スコア(独自算出の注目度): 64.37162720126194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing realism of multimodal content has made misinformation more subtle and harder to detect, especially in news media where images are frequently paired with bilingual (e.g., Chinese-English) subtitles. Such content often includes localized image edits and cross-lingual inconsistencies that jointly distort meaning while remaining superficially plausible. We introduce BiMi, a bilingual multimodal framework that jointly performs region-level localization, cross-modal and cross-lingual consistency detection, and natural language explanation for misinformation analysis. To support generalization, BiMi integrates an online retrieval module that supplements model reasoning with up-to-date external context. We further release BiMiBench, a large-scale and comprehensive benchmark constructed by systematically editing real news images and subtitles, comprising 104,000 samples with realistic manipulations across visual and linguistic modalities. To enhance interpretability, we apply Group Relative Policy Optimization (GRPO) to improve explanation quality, marking the first use of GRPO in this domain. Extensive experiments demonstrate that BiMi outperforms strong baselines by up to +8.9 in classification accuracy, +15.9 in localization accuracy, and +2.5 in explanation BERTScore, advancing state-of-the-art performance in realistic, multilingual misinformation detection. Code, models, and datasets will be released.
- Abstract(参考訳): 特に、画像がバイリンガル字幕(例えば中国語と英語の字幕)とペアリングされることの多いニュースメディアでは、マルチモーダルコンテンツのリアリズムの増大により、誤情報をより微妙に検出しにくくなっている。
このような内容は、しばしば局所的な画像編集と、表面的に妥当なまま、共同で意味を歪ませる言語間不整合を含んでいる。
本稿では,バイリンガル・マルチモーダル・フレームワークであるBiMiについて紹介する。このフレームワークは地域レベルのローカライゼーション,クロスモーダルおよびクロスリンガルの一貫性検出,誤情報解析のための自然言語説明を共同で行う。
一般化をサポートするために、BiMiはオンライン検索モジュールを統合し、モデル推論を最新の外部コンテキストで補完する。
さらに、実際のニュース画像や字幕を体系的に編集して構築された大規模かつ包括的なベンチマークであるBiMiBenchを104,000個のサンプルで視覚的および言語学的モダリティをリアルに操作する。
解釈可能性を高めるために,グループ相対政策最適化(GRPO)を用いて説明品質を向上させる。
大規模な実験により、BiMiは、分類精度が+8.9、ローカライゼーション精度が+15.9、BERTScoreの説明が+2.5、現実的で多言語的な誤情報検出における最先端の性能がさらに向上していることが示されている。
コード、モデル、データセットがリリースされる。
関連論文リスト
- Improving Retrieval-Augmented Neural Machine Translation with Monolingual Data [9.67203800171351]
多くの設定では、ドメイン内のモノリンガルなターゲットサイドコーパスがしばしば利用可能である。
この研究は、対象言語に直接関連するセグメントを取得することによって、そのようなリソースを活用する方法を探究する。
2つのRANMTアーキテクチャを用いた実験では、まず、制御された環境で言語横断的な目的の利点を実演する。
次に,本手法を,対象のモノリンガルリソースが並列データの量よりはるかに多い実世界のセットアップに示す。
論文 参考訳(メタデータ) (2025-04-30T15:41:03Z) - A Unit-based System and Dataset for Expressive Direct Speech-to-Speech Translation [38.88908101517807]
本研究は,様々な映画の音声トラックから,新しい,注意深くキュレートされた多言語データセットについて紹介する。
各データセットペアは、パラ言語情報と持続時間に正確にマッチする。
我々は、複数の韻律伝達技術を統合することでこれを強化し、正確で自然な響きがあり、パラ言語的詳細に富む翻訳を目指しています。
論文 参考訳(メタデータ) (2025-02-01T09:24:32Z) - MMCFND: Multimodal Multilingual Caption-aware Fake News Detection for Low-resource Indic Languages [0.4062349563818079]
Indic Fake News Detection (MMIFND) のためのマルチモーダル多言語データセットを提案する。
この厳密にキュレートされたデータセットは、ヒンディー語、ベンガル語、マラタイ語、マラヤラム語、タミル語、グジャラート語、パンジャービ語にまたがる28,085のインスタンスで構成されている。
フェイクニュース検出(MMCFND)のためのマルチモーダルキャプション対応フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:59:33Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Simultaneous Machine Translation with Visual Context [42.88121241096681]
同時機械翻訳(SiMT)は、連続的な入力テキストストリームを低レイテンシで最高の品質で別の言語に変換することを目的としている。
我々は、様々なマルチモーダルアプローチと視覚的特徴が最先端のSiMTフレームワークに与える影響を分析する。
論文 参考訳(メタデータ) (2020-09-15T18:19:11Z) - A Bayesian Multilingual Document Model for Zero-shot Topic Identification and Discovery [1.9215779751499527]
モデルは多言語シナリオへの BaySMM [Kesiraju et al 2020] の拡張である。
学習した不確実性を線形分類器で伝達し、ゼロショットの言語間話題識別に役立てる。
我々は、現在のデータセットを深く掘り下げることで、ゼロショット設定での言語間トピックの識別を再考する。
論文 参考訳(メタデータ) (2020-07-02T19:55:08Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。