Fugu-MT 論文翻訳(概要): Detecting and Grounding Multi-Modal Media Manipulation

論文の概要: Detecting and Grounding Multi-Modal Media Manipulation

arxiv url: http://arxiv.org/abs/2304.02556v1
Date: Wed, 5 Apr 2023 16:20:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-06 12:06:08.415243
Title: Detecting and Grounding Multi-Modal Media Manipulation
Title（参考訳）: マルチモーダルメディア操作の検出と接地
Authors: Rui Shao, Tianxing Wu, Ziwei Liu
Abstract要約: マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。 DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
参考スコア（独自算出の注目度）: 32.34908534582532
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Misinformation has become a pressing issue. Fake media, in both visual and textual forms, is widespread on the web. While various deepfake detection and text fake news detection methods have been proposed, they are only designed for single-modality forgery based on binary classification, let alone analyzing and reasoning subtle forgery traces across different modalities. In this paper, we highlight a new research problem for multi-modal fake media, namely Detecting and Grounding Multi-Modal Media Manipulation (DGM^4). DGM^4 aims to not only detect the authenticity of multi-modal media, but also ground the manipulated content (i.e., image bounding boxes and text tokens), which requires deeper reasoning of multi-modal media manipulation. To support a large-scale investigation, we construct the first DGM^4 dataset, where image-text pairs are manipulated by various approaches, with rich annotation of diverse manipulations. Moreover, we propose a novel HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER) to fully capture the fine-grained interaction between different modalities. HAMMER performs 1) manipulation-aware contrastive learning between two uni-modal encoders as shallow manipulation reasoning, and 2) modality-aware cross-attention by multi-modal aggregator as deep manipulation reasoning. Dedicated manipulation detection and grounding heads are integrated from shallow to deep levels based on the interacted multi-modal information. Finally, we build an extensive benchmark and set up rigorous evaluation metrics for this new research problem. Comprehensive experiments demonstrate the superiority of our model; several valuable observations are also revealed to facilitate future research in multi-modal media manipulation.
Abstract（参考訳）: 誤報は差し迫った問題になっている。フェイクメディアは、視覚とテキストの両方の形で、ウェブ上で広く普及している。様々なディープフェイク検出法やテキスト偽ニュース検出法が提案されているが、それらは二項分類に基づく単一のモダリティ偽造のためにのみ設計されている。本稿では,マルチモーダルメディア操作(dgm^4)の検出と接地という,マルチモーダルメディアに対する新たな研究課題について述べる。 DGM^4は、マルチモーダルメディアの信頼性を検知するだけでなく、マルチモーダルメディア操作の深い推論を必要とする操作されたコンテンツ(画像バウンディングボックスとテキストトークン)を基盤とする。大規模な調査を支援するため,画像とテキストのペアを様々なアプローチで操作するDGM^4データセットを構築した。さらに,HerArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)を提案する。ハンマー演奏 1)浅い操作推論としての2つのユニモーダルエンコーダ間の操作対応コントラスト学習 2)マルチモーダルアグリゲータによる奥行き操作推論としてのモダリティ認識クロスアテンション対話型マルチモーダル情報に基づいて、専用操作検出および接地ヘッドを浅層から深層へと統合する。最後に,この新たな研究課題に対する厳密な評価基準を設定した。また,マルチモーダルメディア操作における今後の研究を促進するために,いくつかの貴重な観測結果が得られた。

関連論文リスト

Dual Modality-Aware Gated Prompt Tuning for Few-Shot Multimodal Sarcasm Detection [1.515687944002438]
本稿では, DMDP (Deep Modality-Disentangled Prompt Tuning) を紹介した。 DMPは、テキストとビジュアルエンコーダに対して、ゲート付き、モダリティ固有のディーププロンプトを使用する。レイヤ間でのプロンプト共有機構を導入し、低レベルと高レベルのセマンティックキューの両方をモデルに集約する。
論文参考訳（メタデータ） (2025-07-06T17:16:34Z)
Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文参考訳（メタデータ） (2024-08-16T16:14:36Z)
Harmfully Manipulated Images Matter in Multimodal Misinformation Detection [22.236455110413264]
MMD(Multimodal Misinformation Detection)は、学術・産業コミュニティから注目を集めている。我々は,MDD(HAMI-M3D)における新たなHAMI-M3D法,すなわちハーモリー・マニピュレーション・イメージ・マターを提案する。 3つのベンチマークデータセットにわたる大規模な実験は、HAMI-M3Dが任意のMDDベースラインのパフォーマンスを一貫して改善できることを実証することができる。
論文参考訳（メタデータ） (2024-07-27T07:16:07Z)
Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。 TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-22T05:24:19Z)
Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。 DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文参考訳（メタデータ） (2023-09-25T15:05:46Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文参考訳（メタデータ） (2023-08-30T08:33:13Z)
Inconsistent Matters: A Knowledge-guided Dual-consistency Network for Multi-modal Rumor Detection [53.48346699224921]
マルチメディアコンテンツによる噂を検出するために,知識誘導型二元整合ネットワークを提案する。 2つの一貫性検出ツールを使用して、クロスモーダルレベルとコンテント知識レベルの不整合を同時にキャプチャする。また、異なる視覚的モダリティ条件下で頑健なマルチモーダル表現学習を可能にする。
論文参考訳（メタデータ） (2023-06-03T15:32:20Z)
Multi-modal Fake News Detection on Social Media via Multi-grained Information Fusion [21.042970740577648]
偽ニュース検出のためのMMFN(Multi-fine Multi-modal Fusion Network)を提案する。そこで我々は,トランスフォーマーを用いた事前学習モデルを用いて,テキストと画像からトークンレベルの特徴を符号化する。マルチモーダルモジュールは、CLIPエンコーダでエンコードされた粗い機能を考慮して、きめ細かい機能をフューズする。
論文参考訳（メタデータ） (2023-04-03T09:13:59Z)
M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文参考訳（メタデータ） (2021-04-20T05:43:44Z)
MEG: Multi-Evidence GNN for Multimodal Semantic Forensics [28.12652559292884]
フェイクニュースは、画像、テキスト、位置などのモダリティを横断するセマンティックな操作を伴うことが多い。近年の研究では、画像の再利用という問題に焦点が当てられている。マルチモーダル・セマンティック・フォサイシクスのための新しいグラフニューラルネットワークモデルを提案する。
論文参考訳（メタデータ） (2020-11-23T09:01:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。