論文の概要: RASR: Retrieval-Augmented Semantic Reasoning for Fake News Video Detection
- arxiv url: http://arxiv.org/abs/2604.06687v1
- Date: Wed, 08 Apr 2026 05:03:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.34695
- Title: RASR: Retrieval-Augmented Semantic Reasoning for Fake News Video Detection
- Title(参考訳): RASR:偽ニュースビデオ検出のための検索強化セマンティック推論
- Authors: Hui Li, Peien Ding, Jun Li, Guoqi Ma, Zhanyu Liu, Ge Xu, Junfeng Yao, Jinsong Su,
- Abstract要約: マルチモーダルフェイクニュースビデオ検出は、オンライン情報の信頼性を維持するための重要な研究方向である。
既存の研究は、主にマルチモーダルな特徴融合表現を構築したり、事前訓練された言語モデルを利用したりすることで、コンテンツの信頼性を検証する。
本稿では,これらの制約を克服する新しいRASR(Retrieval-Augmented Semantic Reasoning)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.069086560563285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal fake news video detection is a crucial research direction for maintaining the credibility of online information. Existing studies primarily verify content authenticity by constructing multimodal feature fusion representations or utilizing pre-trained language models to analyze video-text consistency. However, these methods still face the following limitations: (1) lacking cross-instance global semantic correlations, making it difficult to effectively utilize historical associative evidence to verify the current video; (2) semantic discrepancies across domains hinder the transfer of general knowledge, lacking the guidance of domain-specific expert knowledge. To this end, we propose a novel Retrieval-Augmented Semantic Reasoning (RASR) framework. First, a Cross-instance Semantic Parser and Retriever (CSPR) deconstructs the video into high-level semantic primitives and retrieves relevant associative evidence from a dynamic memory bank. Subsequently, a Domain-Guided Multimodal Reasoning (DGMP) module incorporates domain priors to drive an expert multimodal large language model in generating domain-aware, in-depth analysis reports. Finally, a Multi-View Feature Decoupling and Fusion (MVDFF) module integrates multi-dimensional features through an adaptive gating mechanism to achieve robust authenticity determination. Extensive experiments on the FakeSV and FakeTT datasets demonstrate that RASR significantly outperforms state-of-the-art baselines, achieves superior cross-domain generalization, and improves the overall detection accuracy by up to 0.93%.
- Abstract(参考訳): マルチモーダルフェイクニュースビデオ検出は、オンライン情報の信頼性を維持するための重要な研究方向である。
既存の研究は、主にマルチモーダルな特徴融合表現を構築したり、事前訓練された言語モデルを用いてビデオテキストの一貫性を分析することによって、コンテンツの信頼性を検証する。
しかし, これらの手法は, 1) クロスインスタンスなグローバルな意味的相関が欠如しているため, 歴史的連想的証拠を効果的に活用することが困難である; 2) ドメイン間の意味的相違は, 一般知識の伝達を妨げ, ドメイン固有の専門知識の指導を欠いている。
そこで本研究では,RASR(Retrieval-Augmented Semantic Reasoning)フレームワークを提案する。
まず、クロスインスタンスのセマンティックパーザとレトリバー(CSPR)は、ビデオを高レベルのセマンティックプリミティブに分解し、動的メモリバンクから関連性のある連想証拠を取得する。
その後、ドメインガイド型マルチモーダル推論(DGMP)モジュールは、ドメイン事前を組み込んで、ドメイン認識の詳細な分析レポートを生成するために、専門家のマルチモーダル大言語モデルを駆動する。
最後に,Multi-View Feature Decoupling and Fusion (MVDFF)モジュールは適応ゲーティング機構を通じて多次元特徴を統合し,堅牢な信頼性判定を実現する。
FakeSVとFakeTTデータセットの大規模な実験により、RASRは最先端のベースラインを著しく上回り、ドメイン間の一般化が優れ、全体的な検出精度が最大0.93%向上することが示された。
関連論文リスト
- Consolidating Diffusion-Generated Video Detection with Unified Multimodal Forgery Learning [61.3737746844896]
既存の手法は主に画像レベルの偽造検出に重点を置いており、一般的なビデオレベルの偽造検出はほとんど探索されていない。
本稿では,拡散生成ビデオの検出に特化して設計したMM-Det++という統合マルチモーダル検出手法を提案する。
論文 参考訳(メタデータ) (2025-11-22T16:05:12Z) - MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - Consistent and Invariant Generalization Learning for Short-video Misinformation Detection [20.688230555928104]
ショートビデオ誤報検出はマルチモーダル領域で広く注目を集めている。
現在のモデルは、ドメインギャップのため、目に見えないドメインで不満足なパフォーマンスを示すことが多い。
本稿では,映像誤情報検出のためのコンシステイシーと不変学習を用いた新しいDOmain一般化モデルを提案する。
論文 参考訳(メタデータ) (2025-07-05T14:53:32Z) - Cross-domain Few-shot Object Detection with Multi-modal Textual Enrichment [21.36633828492347]
クロスドメイン多モードFew-Shotオブジェクト検出(CDMM-FSOD)
メタラーニングベースのフレームワークを導入し、リッチテキストセマンティクスを補助モダリティとして活用し、効果的なドメイン適応を実現する。
提案手法を共通のクロスドメインオブジェクト検出ベンチマークで評価し,既存の複数ショットオブジェクト検出手法を大きく上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-23T06:59:22Z) - Cross-domain Multi-modal Few-shot Object Detection via Rich Text [21.36633828492347]
クロスモーダルな特徴抽出と統合は、数ショットの学習タスクで安定したパフォーマンス改善をもたらした。
MM-OD (CDMM-FSOD) のクロスドメイン数ショット一般化について検討し,メタラーニングに基づく多モード数ショット検出手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T15:10:22Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Universal-RCNN: Universal Object Detector via Transferable Graph R-CNN [117.80737222754306]
我々はUniversal-RCNNと呼ばれる新しいユニバーサルオブジェクト検出器を提案する。
まず、すべてのカテゴリの高レベルなセマンティック表現を統合することで、グローバルなセマンティックプールを生成する。
ドメイン内推論モジュールは、空間認識GCNによってガイドされる1つのデータセット内のスパースグラフ表現を学習し、伝播する。
論文 参考訳(メタデータ) (2020-02-18T07:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。