論文の概要: MEG: Multi-Evidence GNN for Multimodal Semantic Forensics
- arxiv url: http://arxiv.org/abs/2011.11286v1
- Date: Mon, 23 Nov 2020 09:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:35:16.830424
- Title: MEG: Multi-Evidence GNN for Multimodal Semantic Forensics
- Title(参考訳): MEG:Multi-Evidence GNN for Multimodal Semantic Forensics
- Authors: Ekraam Sabir, Ayush Jaiswal, Wael AbdAlmageed, Prem Natarajan
- Abstract要約: フェイクニュースは、画像、テキスト、位置などのモダリティを横断するセマンティックな操作を伴うことが多い。
近年の研究では、画像の再利用という問題に焦点が当てられている。
マルチモーダル・セマンティック・フォサイシクスのための新しいグラフニューラルネットワークモデルを提案する。
- 参考スコア(独自算出の注目度): 28.12652559292884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fake news often involves semantic manipulations across modalities such as
image, text, location etc and requires the development of multimodal semantic
forensics for its detection. Recent research has centered the problem around
images, calling it image repurposing -- where a digitally unmanipulated image
is semantically misrepresented by means of its accompanying multimodal metadata
such as captions, location, etc. The image and metadata together comprise a
multimedia package. The problem setup requires algorithms to perform multimodal
semantic forensics to authenticate a query multimedia package using a reference
dataset of potentially related packages as evidences. Existing methods are
limited to using a single evidence (retrieved package), which ignores potential
performance improvement from the use of multiple evidences. In this work, we
introduce a novel graph neural network based model for multimodal semantic
forensics, which effectively utilizes multiple retrieved packages as evidences
and is scalable with the number of evidences. We compare the scalability and
performance of our model against existing methods. Experimental results show
that the proposed model outperforms existing state-of-the-art algorithms with
an error reduction of up to 25%.
- Abstract(参考訳): フェイクニュースはイメージ、テキスト、ロケーションなどのモダリティにまたがる意味的操作を伴い、その検出にはマルチモーダルな意味的鑑識の開発が必要である。
最近の研究は、画像にまつわる問題に焦点を合わせ、画像再生と呼んでいる -- キャプションやロケーションなどのマルチモーダルメタデータを伴って、デジタル的に操作されていない画像が意味的に誤って表現される。
画像とメタデータを合わせてマルチメディアパッケージを構成する。
問題設定は、潜在的に関連するパッケージのリファレンスデータセットを証拠として、クエリマルチメディアパッケージを認証するために、マルチモーダルなセマンティックフォサイクスを実行するアルゴリズムを必要とする。
既存の手法は、複数のエビデンスを使用することによる潜在的なパフォーマンス改善を無視する単一のエビデンス(回収パッケージ)の使用に限られる。
本稿では,複数の検索パッケージを証拠として効果的に活用し,エビデンス数に拡張可能な,マルチモーダル意味科学のためのグラフニューラルネットワークモデルを提案する。
私たちは、モデルのスケーラビリティとパフォーマンスを既存のメソッドと比較します。
実験の結果,提案手法は,従来の最先端アルゴリズムを最大25%の誤差低減で上回ることがわかった。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection [107.86009509291581]
我々はForgerySleuthを提案し、包括的ヒント融合を行い、改ざんされた領域を示すセグメンテーション出力を生成する。
ForgeryAnalysisの有効性を実証し,ForgerySleuthが既存手法の堅牢性,一般化性,説明可能性において著しく優れていたことを示す。
論文 参考訳(メタデータ) (2024-11-29T04:35:18Z) - Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Detecting and Grounding Multi-Modal Media Manipulation [32.34908534582532]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:20:40Z) - Differentiable Meta Multigraph Search with Partial Message Propagation
on Heterogeneous Information Networks [18.104982772430102]
異種情報ネットワーク(HIN)上でのニューラルネットワーク設計を自動的に最適化するPMMM(Partial Message Meta Multigraph Search)を提案する。
PMMMは、意味のあるメタマルチグラフを探すために効率的な微分可能なフレームワークを採用しており、メタグラフよりも柔軟で複雑なセマンティックな関係を捉えることができる。
我々の手法は、最先端の異種GNNより優れ、意味のあるメタマルチグラフを見つけ、より安定している。
論文 参考訳(メタデータ) (2022-11-27T07:35:42Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image
Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。
本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文 参考訳(メタデータ) (2022-01-10T19:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。