論文の概要: MEG: Multi-Evidence GNN for Multimodal Semantic Forensics
- arxiv url: http://arxiv.org/abs/2011.11286v1
- Date: Mon, 23 Nov 2020 09:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:35:16.830424
- Title: MEG: Multi-Evidence GNN for Multimodal Semantic Forensics
- Title(参考訳): MEG:Multi-Evidence GNN for Multimodal Semantic Forensics
- Authors: Ekraam Sabir, Ayush Jaiswal, Wael AbdAlmageed, Prem Natarajan
- Abstract要約: フェイクニュースは、画像、テキスト、位置などのモダリティを横断するセマンティックな操作を伴うことが多い。
近年の研究では、画像の再利用という問題に焦点が当てられている。
マルチモーダル・セマンティック・フォサイシクスのための新しいグラフニューラルネットワークモデルを提案する。
- 参考スコア(独自算出の注目度): 28.12652559292884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fake news often involves semantic manipulations across modalities such as
image, text, location etc and requires the development of multimodal semantic
forensics for its detection. Recent research has centered the problem around
images, calling it image repurposing -- where a digitally unmanipulated image
is semantically misrepresented by means of its accompanying multimodal metadata
such as captions, location, etc. The image and metadata together comprise a
multimedia package. The problem setup requires algorithms to perform multimodal
semantic forensics to authenticate a query multimedia package using a reference
dataset of potentially related packages as evidences. Existing methods are
limited to using a single evidence (retrieved package), which ignores potential
performance improvement from the use of multiple evidences. In this work, we
introduce a novel graph neural network based model for multimodal semantic
forensics, which effectively utilizes multiple retrieved packages as evidences
and is scalable with the number of evidences. We compare the scalability and
performance of our model against existing methods. Experimental results show
that the proposed model outperforms existing state-of-the-art algorithms with
an error reduction of up to 25%.
- Abstract(参考訳): フェイクニュースはイメージ、テキスト、ロケーションなどのモダリティにまたがる意味的操作を伴い、その検出にはマルチモーダルな意味的鑑識の開発が必要である。
最近の研究は、画像にまつわる問題に焦点を合わせ、画像再生と呼んでいる -- キャプションやロケーションなどのマルチモーダルメタデータを伴って、デジタル的に操作されていない画像が意味的に誤って表現される。
画像とメタデータを合わせてマルチメディアパッケージを構成する。
問題設定は、潜在的に関連するパッケージのリファレンスデータセットを証拠として、クエリマルチメディアパッケージを認証するために、マルチモーダルなセマンティックフォサイクスを実行するアルゴリズムを必要とする。
既存の手法は、複数のエビデンスを使用することによる潜在的なパフォーマンス改善を無視する単一のエビデンス(回収パッケージ)の使用に限られる。
本稿では,複数の検索パッケージを証拠として効果的に活用し,エビデンス数に拡張可能な,マルチモーダル意味科学のためのグラフニューラルネットワークモデルを提案する。
私たちは、モデルのスケーラビリティとパフォーマンスを既存のメソッドと比較します。
実験の結果,提案手法は,従来の最先端アルゴリズムを最大25%の誤差低減で上回ることがわかった。
関連論文リスト
- Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential
Deepfake Detection [81.59191603867586]
シークエンシャルディープフェイク検出は、回復のための正しいシーケンスで偽の顔領域を特定することを目的としている。
偽画像の復元には、逆変換を実装するための操作モデルの知識が必要である。
顔画像の空間スケールや逐次順列化を扱うマルチコラボレーション・マルチスーパービジョンネットワーク(MMNet)を提案する。
論文 参考訳(メタデータ) (2023-07-06T02:32:08Z) - Detecting and Grounding Multi-Modal Media Manipulation [32.34908534582532]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:20:40Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Differentiable Meta Multigraph Search with Partial Message Propagation
on Heterogeneous Information Networks [18.104982772430102]
異種情報ネットワーク(HIN)上でのニューラルネットワーク設計を自動的に最適化するPMMM(Partial Message Meta Multigraph Search)を提案する。
PMMMは、意味のあるメタマルチグラフを探すために効率的な微分可能なフレームワークを採用しており、メタグラフよりも柔軟で複雑なセマンティックな関係を捉えることができる。
我々の手法は、最先端の異種GNNより優れ、意味のあるメタマルチグラフを見つけ、より安定している。
論文 参考訳(メタデータ) (2022-11-27T07:35:42Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image
Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。
本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文 参考訳(メタデータ) (2022-01-10T19:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。