論文の概要: Exposing Cross-Modal Consistency for Fake News Detection in Short-Form Videos
- arxiv url: http://arxiv.org/abs/2603.14992v1
- Date: Mon, 16 Mar 2026 08:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.888545
- Title: Exposing Cross-Modal Consistency for Fake News Detection in Short-Form Videos
- Title(参考訳): 短時間ビデオにおけるフェイクニュース検出のためのクロスモーダル一貫性の抽出
- Authors: Chong Tian, Yu Wang, Chenxu Yang, Junyi Guan, Zheng Lin, Yuhan Liu, Xiuying Chen, Qirong Ho,
- Abstract要約: 我々は,三次整合性信号の粒度を明示的にモデル化し,公開する検出器MAGIC3を提案する。
MAGIC3は、事前抽出された特徴により、FakeSVとFakeTTのVLM以外の最強のベースラインを一貫して上回っている。
VLMレベルの精度に適合しながら、2段のシステムでは18-27倍のスループットと93%のVRAM節約を実現し、コストパフォーマンスのトレードオフが強かった。
- 参考スコア(独自算出の注目度): 39.22382828678062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Short-form video platforms are major channels for news but also fertile ground for multimodal misinformation where each modality appears plausible alone yet cross-modal relationships are subtly inconsistent, like mismatched visuals and captions. On two benchmark datasets, FakeSV (Chinese) and FakeTT (English), we observe a clear asymmetry: real videos exhibit high text-visual but moderate text-audio consistency, while fake videos show the opposite pattern. Moreover, a single global consistency score forms an interpretable axis along which fake probability and prediction errors vary smoothly. Motivated by these observations, we present MAGIC3 (Modal-Adversarial Gated Interaction and Consistency-Centric Classifier), a detector that explicitly models and exposes cross-tri-modal consistency signals at multiple granularities. MAGIC3 combines explicit pairwise and global consistency modeling with token- and frame-level consistency signals derived from cross-modal attention, incorporates multi-style LLM rewrites to obtain style-robust text representations, and employs an uncertainty-aware classifier for selective VLM routing. Using pre-extracted features, MAGIC3 consistently outperforms the strongest non-VLM baselines on FakeSV and FakeTT. While matching VLM-level accuracy, the two-stage system achieves 18-27x higher throughput and 93% VRAM savings, offering a strong cost-performance tradeoff.
- Abstract(参考訳): ショートフォームビデオプラットフォームはニュースの主要なチャンネルであるが、多モーダルな誤報の場でもある。
FakeSV(中国語)とFakeTT(英語)の2つのベンチマークデータセットでは、実際のビデオは高いテキスト-視覚的だが適度なテキスト-オーディオの一貫性を示す一方、フェイクビデオは反対のパターンを示す。
さらに、単一のグローバル一貫性スコアは、偽の確率と予測誤差が滑らかに変化する解釈可能な軸を形成する。
これらの観測から得られたMAGIC3(Modal-Adversarial Gated Interaction and Consistency-Centric Classifier)は,複数の粒度で三次元整合信号を明示的にモデル化・公開する検出器である。
MAGIC3は、明示的なペアワイドおよびグローバル整合性モデリングと、クロスモーダルアテンションから導出されるトークンレベルおよびフレームレベルの整合性信号を組み合わせるとともに、マルチスタイルのLCM書き換えを取り入れて、スタイルローバストなテキスト表現を得るとともに、選択的なVLMルーティングのための不確実性認識分類器を使用する。
MAGIC3は、事前抽出された特徴により、FakeSVとFakeTTのVLM以外の最強のベースラインを一貫して上回っている。
VLMレベルの精度に対応しながら、2段システムは18-27倍のスループットと93%のVRAM節約を実現し、高いコストパフォーマンスのトレードオフを提供する。
関連論文リスト
- Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation [66.53544128707817]
Cheersは、パッチレベルの詳細をセマンティック表現から切り離す、統一されたマルチモーダルモデルである。
チェアは視覚的理解と生成の両方において、高度なUMMと一致または超えます。
論文 参考訳(メタデータ) (2026-03-13T08:55:27Z) - DCDM: Divide-and-Conquer Diffusion Models for Consistency-Preserving Video Generation [77.89090846233906]
我々はDivide-and-Conquer Diffusion Model (DCDM)と呼ばれるシステムレベルのフレームワークを提案する。
DCDMは、統合されたビデオ生成バックボーンを共有しながら、ビデオ一貫性モデリングを3つの専用コンポーネントに分解する。
我々は,AAAI'26におけるCVMコンペティションのテストセットにおけるフレームワークの検証を行い,提案手法がこれらの課題に効果的に対処できることを実証した。
論文 参考訳(メタデータ) (2026-02-14T07:02:36Z) - Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - Consistency-aware Fake Videos Detection on Short Video Platforms [4.291448222735821]
本稿では,ショートビデオプラットフォーム上でのフェイクニュースの検出に焦点をあてる。
既存のアプローチは通常、分類層を適用する前に生のビデオデータとメタデータの入力を組み合わせる。
この知見に触発された本研究では,クロスモーダルな矛盾を明示的に識別し,活用する新たな検出パラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-30T10:26:04Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - SCMM: Calibrating Cross-modal Representations for Text-Based Person Search [45.24784242117999]
テキストベースPerson Search (TBPS) は、クロスモーダル情報融合において重要な課題に直面している。
SCMM(Sew and Masked Modeling)は,2つの相補的なメカニズムによってこれらの融合課題に対処する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-04-05T07:50:16Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。