論文の概要: The Paradigm Shift: A Comprehensive Survey on Large Vision Language Models for Multimodal Fake News Detection
- arxiv url: http://arxiv.org/abs/2601.15316v1
- Date: Fri, 16 Jan 2026 02:40:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.347077
- Title: The Paradigm Shift: A Comprehensive Survey on Large Vision Language Models for Multimodal Fake News Detection
- Title(参考訳): パラダイムシフト:マルチモーダルフェイクニュース検出のための大規模視覚言語モデルに関する総合調査
- Authors: Wei Ai, Yilong Tan, Yuntao Shou, Tao Meng, Haowen Chen, Zhixiong He, Keqin Li,
- Abstract要約: 近年、大型視覚モデル(LVLM)の急速な進化は、マルチモーダルフェイクニュース(MFND)のパラダイムシフトを引き起こしている。
本稿では、歴史的視点、基礎モデルパラダイムへのマッピング、解釈可能性、時間的推論、ドメインの一般化など、残る技術的課題について論じる。
このパラダイムシフトの次の段階を導くための今後の研究方針について概説する。
- 参考スコア(独自算出の注目度): 35.503099074709006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the rapid evolution of large vision-language models (LVLMs) has driven a paradigm shift in multimodal fake news detection (MFND), transforming it from traditional feature-engineering approaches to unified, end-to-end multimodal reasoning frameworks. Early methods primarily relied on shallow fusion techniques to capture correlations between text and images, but they struggled with high-level semantic understanding and complex cross-modal interactions. The emergence of LVLMs has fundamentally changed this landscape by enabling joint modeling of vision and language with powerful representation learning, thereby enhancing the ability to detect misinformation that leverages both textual narratives and visual content. Despite these advances, the field lacks a systematic survey that traces this transition and consolidates recent developments. To address this gap, this paper provides a comprehensive review of MFND through the lens of LVLMs. We first present a historical perspective, mapping the evolution from conventional multimodal detection pipelines to foundation model-driven paradigms. Next, we establish a structured taxonomy covering model architectures, datasets, and performance benchmarks. Furthermore, we analyze the remaining technical challenges, including interpretability, temporal reasoning, and domain generalization. Finally, we outline future research directions to guide the next stage of this paradigm shift. To the best of our knowledge, this is the first comprehensive survey to systematically document and analyze the transformative role of LVLMs in combating multimodal fake news. The summary of existing methods mentioned is in our Github: \href{https://github.com/Tan-YiLong/Overview-of-Fake-News-Detection}{https://github.com/Tan-YiLong/Overview-of-Fake-News-Detection}.
- Abstract(参考訳): 近年、大規模視覚言語モデル(LVLM)の急速な進化により、マルチモーダルフェイクニュース検出(MFND)のパラダイムシフトが加速し、従来の特徴工学的アプローチからエンドツーエンドのマルチモーダル推論フレームワークへの転換が進んでいる。
初期の手法は主にテキストと画像の相関を捉えるための浅い融合技術に頼っていたが、高いレベルの意味理解と複雑な相互モーダル相互作用に苦しんだ。
LVLMの出現は、強力な表現学習による視覚と言語の共同モデリングを可能にし、テキスト物語と視覚コンテンツの両方を活用する誤情報を検出する能力を高めることによって、この景観を根本的に変えた。
これらの進歩にもかかわらず、この分野は、この遷移を辿り、最近の発展を固める体系的な調査を欠いている。
このギャップに対処するために,本論文はLVLMのレンズによるMFNDの総合的なレビューを提供する。
まず、従来のマルチモーダル検出パイプラインから基礎モデル駆動パラダイムへの進化を、歴史的視点として提示する。
次に、モデルアーキテクチャ、データセット、パフォーマンスベンチマークをカバーする構造的な分類法を確立する。
さらに、解釈可能性、時間的推論、ドメインの一般化など、残りの技術的課題を分析する。
最後に,このパラダイムシフトの次の段階を導くための今後の研究方針について概説する。
我々の知る限りでは、マルチモーダルフェイクニュースと戦う上でのLVLMの変革的役割を体系的に文書化し分析する、初めての総合的な調査である。
既存のメソッドの要約はGithubにある。 \href{https://github.com/Tan-YiLong/Overview-of-Fake-News-Detection}{https://github.com/Tan-YiLong/Overview-of-Fake-News-Detection}。
関連論文リスト
- Where Does Vision Meet Language? Understanding and Refining Visual Fusion in MLLMs via Contrastive Attention [7.511262066889113]
MLLM(Multimodal Large Language Models)は、視覚言語理解において顕著な進歩を遂げている。
複数のアーキテクチャにまたがる階層的なマスキング解析を行い、MLLM内での視覚テキストの融合がどのように進化するかを明らかにする。
我々は、初期融合と最終層間の変換をモデル化し、意味のある注意シフトを強調する、トレーニングなしのコントラスト注意フレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T02:26:21Z) - Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning: A Survey [40.20905051575087]
AI for Scienceでは、マルチモーダルな感情認識と推論が急速に成長するフロンティアとなっている。
本論文は,マルチモーダル感情認識と推論によるMLLMの交点を包括的に調査する最初の試みである。
論文 参考訳(メタデータ) (2025-09-29T06:13:14Z) - Multi-Modal Interpretability for Enhanced Localization in Vision-Language Models [2.984679075401059]
本稿では,視覚言語モデルの解釈性向上を目的としたマルチモーダル説明型学習フレームワークを提案する。
我々のアプローチは、複数の意味レベルで特徴を処理し、異なる粒度における画像領域間の関係をキャプチャする。
意味関係情報を勾配に基づく属性マップに組み込むことで、MMELはより焦点を絞った、文脈を意識した視覚化を実現できることを示す。
論文 参考訳(メタデータ) (2025-09-17T18:18:59Z) - Generalizing vision-language models to novel domains: A comprehensive survey [55.97518817219619]
視覚言語事前学習は、視覚とテキストの両モードの強みを統合する変換技術として登場した。
本調査は, VLM文献における一般化設定, 方法論, ベンチマーク, 結果の総合的な要約を目的とする。
論文 参考訳(メタデータ) (2025-06-23T10:56:37Z) - Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Analyzing Finetuning Representation Shift for Multimodal LLMs Steering [56.710375516257876]
隠れた状態を解釈可能な視覚的概念とテキスト的概念にマッピングすることを提案する。
これにより、オリジナルモデルや微調整モデルからのシフトなど、特定のセマンティックダイナミクスをより効率的に比較することが可能になります。
また,これらの変化を捉えるためにシフトベクトルを用いることを実証する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - Remote Sensing SpatioTemporal Vision-Language Models: A Comprehensive Survey [35.600870905903996]
本稿では,RS-STVLMの総合的なレビューを行う。
本稿では, 変更キャプション, 変更質問, 回答キャプション, 変更グラウンドなど, 代表課題の進捗状況について論じる。
遠隔センシングのための視覚言語理解における現在の成果と将来的な研究の方向性を照らすことを目的としている。
論文 参考訳(メタデータ) (2024-12-03T16:56:10Z) - Evolving from Single-modal to Multi-modal Facial Deepfake Detection: Progress and Challenges [40.11614155244292]
この調査は、初期の単一モーダル法から洗練された多モーダルアプローチへのディープフェイク検出の進化を辿るものである。
本稿では,検出手法の構造化された分類法を提案し,GANベースから拡散モデル駆動型ディープフェイクへの遷移を解析する。
論文 参考訳(メタデータ) (2024-06-11T05:48:04Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。