論文の概要: ViMGuard: A Novel Multi-Modal System for Video Misinformation Guarding
- arxiv url: http://arxiv.org/abs/2410.16592v1
- Date: Tue, 22 Oct 2024 00:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:54.504736
- Title: ViMGuard: A Novel Multi-Modal System for Video Misinformation Guarding
- Title(参考訳): ViMGuard:ビデオ誤情報監視のための新しいマルチモーダルシステム
- Authors: Andrew Kan, Christopher Kan, Zaid Nabulsi,
- Abstract要約: 誤情報保護のためのビデオマスク付きオートエンコーダ(ViMGuard)について紹介する。
ViMGuardはSFVのファクトチェックが可能な最初のディープラーニングアーキテクチャである。
評価では、ViMGuardは最先端のファクトチェッカーを3つ上回った。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rise of social media and short-form video (SFV) has facilitated a breeding ground for misinformation. With the emergence of large language models, significant research has gone into curbing this misinformation problem with automatic false claim detection for text. Unfortunately, the automatic detection of misinformation in SFV is a more complex problem that remains largely unstudied. While text samples are monomodal (only containing words), SFVs comprise three different modalities: words, visuals, and non-linguistic audio. In this work, we introduce Video Masked Autoencoders for Misinformation Guarding (ViMGuard), the first deep-learning architecture capable of fact-checking an SFV through analysis of all three of its constituent modalities. ViMGuard leverages a dual-component system. First, Video and Audio Masked Autoencoders analyze the visual and non-linguistic audio elements of a video to discern its intention; specifically whether it intends to make an informative claim. If it is deemed that the SFV has informative intent, it is passed through our second component: a Retrieval Augmented Generation system that validates the factual accuracy of spoken words. In evaluation, ViMGuard outperformed three cutting-edge fact-checkers, thus setting a new standard for SFV fact-checking and marking a significant stride toward trustworthy news on social platforms. To promote further testing and iteration, VimGuard was deployed into a Chrome extension and all code was open-sourced on GitHub.
- Abstract(参考訳): ソーシャルメディアとショートフォームビデオ(SFV)の興隆は、誤報の発芽を助長している。
大規模言語モデルの出現に伴い、テキストの自動偽造請求検出による誤情報問題を抑制する重要な研究が進められている。
残念なことに、SFVにおける誤情報の自動検出は、ほとんど研究されていないより複雑な問題である。
テキストサンプルはモノモーダル(単語のみを含む)であるが、SFVは単語、視覚、非言語音声の3つの異なるモードから構成される。
本研究では,その3つの要素のすべてを分析することで,SFVをファクトチェックできる最初のディープラーニングアーキテクチャである,誤情報保護のためのビデオマスクオートエンコーダ(ViMGuard)を紹介する。
ViMGuardはデュアルコンポーネントシステムを利用している。
まず、ビデオとオーディオのマスケード・オートエンコーダーは、ビデオの視覚的および非言語的オーディオ要素を分析して、その意図、特に情報的な主張をするつもりかどうかを識別する。
SFVが情報的意図を持っていると判断された場合、音声の事実的正確性を検証する検索拡張生成システム(Retrieval Augmented Generation system)を経由する。
評価では、ViMGuardは最先端のファクトチェッカーを3つ上回り、SFVのファクトチェッカーのための新しい標準を設定し、ソーシャルプラットフォーム上で信頼できるニュースに向けて重要な一歩を踏み出した。
さらなるテストとイテレーションを促進するため、VimGuardはChromeエクステンションにデプロイされ、すべてのコードがGitHubでオープンソース化された。
関連論文リスト
- Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Combating Online Misinformation Videos: Characterization, Detection, and
Future Directions [13.960032991158402]
ビデオベースの誤報は、オンライン情報エコシステムの健全性に新たな脅威をもたらす。
まず、信号、意味、意図を含む3つのレベルから誤情報映像を分析し、特徴付ける。
代表的なデータセットや有用なツールを含む既存のリソースを紹介します。
論文 参考訳(メタデータ) (2023-02-07T04:03:55Z) - Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。
本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:48:14Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。