論文の概要: Multi-Modal Semantic Inconsistency Detection in Social Media News Posts
- arxiv url: http://arxiv.org/abs/2105.12855v1
- Date: Wed, 26 May 2021 21:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:22:44.788146
- Title: Multi-Modal Semantic Inconsistency Detection in Social Media News Posts
- Title(参考訳): ソーシャルメディア投稿におけるマルチモーダルセマンティック不整合検出
- Authors: Scott McCrae, Kehan Wang, Avideh Zakhor
- Abstract要約: ソーシャルメディア投稿におけるビデオとキャプションのミスマッチを識別するマルチモーダル融合フレームワークを開発した。
このアプローチをトレーニングし、テストするために、4000の現実世界のFacebookニュース投稿の動画ベースのデータセットをキュレートする。
- 参考スコア(独自算出の注目度): 1.160208922584163
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As computer-generated content and deepfakes make steady improvements,
semantic approaches to multimedia forensics will become more important. In this
paper, we introduce a novel classification architecture for identifying
semantic inconsistencies between video appearance and text caption in social
media news posts. We develop a multi-modal fusion framework to identify
mismatches between videos and captions in social media posts by leveraging an
ensemble method based on textual analysis of the caption, automatic audio
transcription, semantic video analysis, object detection, named entity
consistency, and facial verification. To train and test our approach, we curate
a new video-based dataset of 4,000 real-world Facebook news posts for analysis.
Our multi-modal approach achieves 60.5% classification accuracy on random
mismatches between caption and appearance, compared to accuracy below 50% for
uni-modal models. Further ablation studies confirm the necessity of fusion
across modalities for correctly identifying semantic inconsistencies.
- Abstract(参考訳): コンピュータ生成コンテンツやディープフェイクが着実に改善されるにつれて、マルチメディアの法医学へのセマンティックアプローチがより重要になる。
本稿では,ソーシャルメディアのニュース投稿におけるビデオの出現とテキストキャプションのセマンティックな矛盾を識別する新しい分類アーキテクチャを提案する。
本研究では,キャプションのテキスト解析,音声自動転写,セマンティックビデオ解析,オブジェクト検出,名前付きエンティティ一貫性,顔認証に基づくアンサンブル手法を用いて,ソーシャルメディア投稿中の動画とキャプションのミスマッチを識別するマルチモーダル融合フレームワークを開発した。
このアプローチをトレーニングし、テストするために、分析のために、4000の現実世界のFacebookニュース投稿からなるビデオベースのデータセットをキュレートする。
マルチモーダルアプローチは、キャプションと外観のランダムなミスマッチに対して60.5%の精度を達成し、ユニモーダルモデルの精度は50%以下である。
さらにアブレーション研究は、意味的不整合を正しく識別するために、モダリティ間の融合の必要性を確認する。
関連論文リスト
- Towards a Robust Framework for Multimodal Hate Detection: A Study on Video vs. Image-based Content [7.5253808885104325]
ソーシャルメディアプラットフォームは、さまざまなモダリティにまたがるヘイトフルコンテンツの伝播を可能にする。
近年のアプローチでは、個々のモダリティを扱うことは約束されているが、異なるモダリティの組み合わせにおけるそれらの有効性は未解明のままである。
本稿では,マルチモーダルヘイト検出における融合に基づくアプローチの体系的分析を行い,ビデオコンテンツと画像コンテンツ間のパフォーマンスに着目した。
論文 参考訳(メタデータ) (2025-02-11T00:07:40Z) - A New Hybrid Intelligent Approach for Multimodal Detection of Suspected Disinformation on TikTok [0.0]
本研究では,深層学習の計算能力とファジィ論理の解釈可能性を組み合わせて,TikTokビデオにおける疑わしい偽情報を検出するハイブリッドフレームワークを提案する。
この手法は、テキスト、音声、ビデオからデータを抽出し評価するマルチモーダル特徴分析装置と、ファジィ論理に基づくマルチモーダル情報検出装置の2つのコアコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-02-09T12:37:48Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - Borrowing Human Senses: Comment-Aware Self-Training for Social Media
Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。
分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。
その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文 参考訳(メタデータ) (2023-03-27T08:59:55Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Misinformation Detection in Social Media Video Posts [0.4724825031148411]
ソーシャルメディアプラットフォームによるショートフォームビデオは、ソーシャルメディアプロバイダーにとって重要な課題となっている。
本研究では,ソーシャルメディア投稿における誤情報検出手法を開発し,ビデオやテキストなどのモダリティを活用する。
われわれはTwitterから16万の動画投稿を収集し、自己教師付き学習を活用して、共同視覚およびテキストデータの表現表現を学ぶ。
論文 参考訳(メタデータ) (2022-02-15T20:14:54Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。