Fugu-MT 論文翻訳(概要): MEG: Multi-Evidence GNN for Multimodal Semantic Forensics

論文の概要: MEG: Multi-Evidence GNN for Multimodal Semantic Forensics

arxiv url: http://arxiv.org/abs/2011.11286v1
Date: Mon, 23 Nov 2020 09:01:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-22 01:35:16.830424
Title: MEG: Multi-Evidence GNN for Multimodal Semantic Forensics
Title（参考訳）: MEG:Multi-Evidence GNN for Multimodal Semantic Forensics
Authors: Ekraam Sabir, Ayush Jaiswal, Wael AbdAlmageed, Prem Natarajan
Abstract要約: フェイクニュースは、画像、テキスト、位置などのモダリティを横断するセマンティックな操作を伴うことが多い。近年の研究では、画像の再利用という問題に焦点が当てられている。マルチモーダル・セマンティック・フォサイシクスのための新しいグラフニューラルネットワークモデルを提案する。
参考スコア（独自算出の注目度）: 28.12652559292884
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fake news often involves semantic manipulations across modalities such as image, text, location etc and requires the development of multimodal semantic forensics for its detection. Recent research has centered the problem around images, calling it image repurposing -- where a digitally unmanipulated image is semantically misrepresented by means of its accompanying multimodal metadata such as captions, location, etc. The image and metadata together comprise a multimedia package. The problem setup requires algorithms to perform multimodal semantic forensics to authenticate a query multimedia package using a reference dataset of potentially related packages as evidences. Existing methods are limited to using a single evidence (retrieved package), which ignores potential performance improvement from the use of multiple evidences. In this work, we introduce a novel graph neural network based model for multimodal semantic forensics, which effectively utilizes multiple retrieved packages as evidences and is scalable with the number of evidences. We compare the scalability and performance of our model against existing methods. Experimental results show that the proposed model outperforms existing state-of-the-art algorithms with an error reduction of up to 25%.
Abstract（参考訳）: フェイクニュースはイメージ、テキスト、ロケーションなどのモダリティにまたがる意味的操作を伴い、その検出にはマルチモーダルな意味的鑑識の開発が必要である。最近の研究は、画像にまつわる問題に焦点を合わせ、画像再生と呼んでいる -- キャプションやロケーションなどのマルチモーダルメタデータを伴って、デジタル的に操作されていない画像が意味的に誤って表現される。画像とメタデータを合わせてマルチメディアパッケージを構成する。問題設定は、潜在的に関連するパッケージのリファレンスデータセットを証拠として、クエリマルチメディアパッケージを認証するために、マルチモーダルなセマンティックフォサイクスを実行するアルゴリズムを必要とする。既存の手法は、複数のエビデンスを使用することによる潜在的なパフォーマンス改善を無視する単一のエビデンス(回収パッケージ)の使用に限られる。本稿では,複数の検索パッケージを証拠として効果的に活用し,エビデンス数に拡張可能な,マルチモーダル意味科学のためのグラフニューラルネットワークモデルを提案する。私たちは、モデルのスケーラビリティとパフォーマンスを既存のメソッドと比較します。実験の結果,提案手法は,従来の最先端アルゴリズムを最大25%の誤差低減で上回ることがわかった。

関連論文リスト

DRAGON: A Large-Scale Dataset of Realistic Images Generated by Diffusion Models [48.347550000332866]
DRAGONは25の拡散モデルの画像からなる包括的なデータセットである。データセットには、多様な対象を表す多様な画像が含まれている。 DRAGONは、合成コンテンツの検出および属性技術の開発と評価において、法医学的なコミュニティを支援するように設計されている。
論文参考訳（メタデータ） (2025-05-16T13:50:34Z)
Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文参考訳（メタデータ） (2025-03-26T17:59:51Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection [107.86009509291581]
我々はForgerySleuthを提案し、包括的ヒント融合を行い、改ざんされた領域を示すセグメンテーション出力を生成する。 ForgeryAnalysisの有効性を実証し,ForgerySleuthが既存手法の堅牢性,一般化性,説明可能性において著しく優れていたことを示す。
論文参考訳（メタデータ） (2024-11-29T04:35:18Z)
Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文参考訳（メタデータ） (2024-08-16T16:14:36Z)
Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文参考訳（メタデータ） (2024-04-03T23:20:40Z)
Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。 DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文参考訳（メタデータ） (2023-09-25T15:05:46Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential Deepfake Detection [81.59191603867586]
シークエンシャルディープフェイク検出は、回復のための正しいシーケンスで偽の顔領域を特定することを目的としている。偽画像の復元には、逆変換を実装するための操作モデルの知識が必要である。顔画像の空間スケールや逐次順列化を扱うマルチコラボレーション・マルチスーパービジョンネットワーク(MMNet)を提案する。
論文参考訳（メタデータ） (2023-07-06T02:32:08Z)
Detecting and Grounding Multi-Modal Media Manipulation [32.34908534582532]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。 DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文参考訳（メタデータ） (2023-04-05T16:20:40Z)
Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。新たなマルチモーダル検索フレームワーク(MoRe)を提案する。 MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文参考訳（メタデータ） (2022-12-03T13:11:32Z)
Differentiable Meta Multigraph Search with Partial Message Propagation on Heterogeneous Information Networks [18.104982772430102]
異種情報ネットワーク(HIN)上でのニューラルネットワーク設計を自動的に最適化するPMMM(Partial Message Meta Multigraph Search)を提案する。 PMMMは、意味のあるメタマルチグラフを探すために効率的な微分可能なフレームワークを採用しており、メタグラフよりも柔軟で複雑なセマンティックな関係を捉えることができる。我々の手法は、最先端の異種GNNより優れ、意味のあるメタマルチグラフを見つけ、より安定している。
論文参考訳（メタデータ） (2022-11-27T07:35:42Z)
Multi-Modal Few-Shot Object Detection with Meta-Learning-Based Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文参考訳（メタデータ） (2022-04-16T16:45:06Z)
Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文参考訳（メタデータ） (2022-01-10T19:04:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。