Fugu-MT 論文翻訳(概要): Multi-Modal Semantic Inconsistency Detection in Social Media News Posts

論文の概要: Multi-Modal Semantic Inconsistency Detection in Social Media News Posts

arxiv url: http://arxiv.org/abs/2105.12855v1
Date: Wed, 26 May 2021 21:25:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-28 16:22:44.788146
Title: Multi-Modal Semantic Inconsistency Detection in Social Media News Posts
Title（参考訳）: ソーシャルメディア投稿におけるマルチモーダルセマンティック不整合検出
Authors: Scott McCrae, Kehan Wang, Avideh Zakhor
Abstract要約: ソーシャルメディア投稿におけるビデオとキャプションのミスマッチを識別するマルチモーダル融合フレームワークを開発した。このアプローチをトレーニングし、テストするために、4000の現実世界のFacebookニュース投稿の動画ベースのデータセットをキュレートする。
参考スコア（独自算出の注目度）: 1.160208922584163
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As computer-generated content and deepfakes make steady improvements, semantic approaches to multimedia forensics will become more important. In this paper, we introduce a novel classification architecture for identifying semantic inconsistencies between video appearance and text caption in social media news posts. We develop a multi-modal fusion framework to identify mismatches between videos and captions in social media posts by leveraging an ensemble method based on textual analysis of the caption, automatic audio transcription, semantic video analysis, object detection, named entity consistency, and facial verification. To train and test our approach, we curate a new video-based dataset of 4,000 real-world Facebook news posts for analysis. Our multi-modal approach achieves 60.5% classification accuracy on random mismatches between caption and appearance, compared to accuracy below 50% for uni-modal models. Further ablation studies confirm the necessity of fusion across modalities for correctly identifying semantic inconsistencies.
Abstract（参考訳）: コンピュータ生成コンテンツやディープフェイクが着実に改善されるにつれて、マルチメディアの法医学へのセマンティックアプローチがより重要になる。本稿では,ソーシャルメディアのニュース投稿におけるビデオの出現とテキストキャプションのセマンティックな矛盾を識別する新しい分類アーキテクチャを提案する。本研究では,キャプションのテキスト解析,音声自動転写,セマンティックビデオ解析,オブジェクト検出,名前付きエンティティ一貫性,顔認証に基づくアンサンブル手法を用いて,ソーシャルメディア投稿中の動画とキャプションのミスマッチを識別するマルチモーダル融合フレームワークを開発した。このアプローチをトレーニングし、テストするために、分析のために、4000の現実世界のFacebookニュース投稿からなるビデオベースのデータセットをキュレートする。マルチモーダルアプローチは、キャプションと外観のランダムなミスマッチに対して60.5%の精度を達成し、ユニモーダルモデルの精度は50%以下である。さらにアブレーション研究は、意味的不整合を正しく識別するために、モダリティ間の融合の必要性を確認する。

関連論文リスト

Towards a Robust Framework for Multimodal Hate Detection: A Study on Video vs. Image-based Content [7.5253808885104325]
ソーシャルメディアプラットフォームは、さまざまなモダリティにまたがるヘイトフルコンテンツの伝播を可能にする。近年のアプローチでは、個々のモダリティを扱うことは約束されているが、異なるモダリティの組み合わせにおけるそれらの有効性は未解明のままである。本稿では,マルチモーダルヘイト検出における融合に基づくアプローチの体系的分析を行い,ビデオコンテンツと画像コンテンツ間のパフォーマンスに着目した。
論文参考訳（メタデータ） (2025-02-11T00:07:40Z)
A New Hybrid Intelligent Approach for Multimodal Detection of Suspected Disinformation on TikTok [0.0]
本研究では,深層学習の計算能力とファジィ論理の解釈可能性を組み合わせて,TikTokビデオにおける疑わしい偽情報を検出するハイブリッドフレームワークを提案する。この手法は、テキスト、音声、ビデオからデータを抽出し評価するマルチモーダル特徴分析装置と、ファジィ論理に基づくマルチモーダル情報検出装置の2つのコアコンポーネントから構成される。
論文参考訳（メタデータ） (2025-02-09T12:37:48Z)
Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文参考訳（メタデータ） (2024-08-16T16:14:36Z)
Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文参考訳（メタデータ） (2024-08-14T01:24:09Z)
From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文参考訳（メタデータ） (2023-12-31T08:13:47Z)
Borrowing Human Senses: Comment-Aware Self-Training for Social Media Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文参考訳（メタデータ） (2023-03-27T08:59:55Z)
UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。 UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文参考訳（メタデータ） (2023-01-16T08:43:17Z)
Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。 GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文参考訳（メタデータ） (2022-11-14T11:41:44Z)
Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文参考訳（メタデータ） (2022-06-05T01:43:52Z)
Misinformation Detection in Social Media Video Posts [0.4724825031148411]
ソーシャルメディアプラットフォームによるショートフォームビデオは、ソーシャルメディアプロバイダーにとって重要な課題となっている。本研究では,ソーシャルメディア投稿における誤情報検出手法を開発し,ビデオやテキストなどのモダリティを活用する。われわれはTwitterから16万の動画投稿を収集し、自己教師付き学習を活用して、共同視覚およびテキストデータの表現表現を学ぶ。
論文参考訳（メタデータ） (2022-02-15T20:14:54Z)
Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文参考訳（メタデータ） (2021-10-12T14:59:25Z)
NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文参考訳（メタデータ） (2021-04-13T01:53:26Z)
MEG: Multi-Evidence GNN for Multimodal Semantic Forensics [28.12652559292884]
フェイクニュースは、画像、テキスト、位置などのモダリティを横断するセマンティックな操作を伴うことが多い。近年の研究では、画像の再利用という問題に焦点が当てられている。マルチモーダル・セマンティック・フォサイシクスのための新しいグラフニューラルネットワークモデルを提案する。
論文参考訳（メタデータ） (2020-11-23T09:01:28Z)
Preserving Semantic Neighborhoods for Robust Cross-modal Retrieval [41.505920288928365]
マルチモーダルデータは、クロスモーダル検索方法への関心を喚起している。テキストと画像のサブスペースのセマンティックコヒーレンシを促進する新しいモダリティ損失を提案する。提案手法では,ペア画像とテキストが近接するだけでなく,期待される画像イメージとテキストテキストの関係も観察される。
論文参考訳（メタデータ） (2020-07-16T20:32:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。