論文の概要: "Humor, Art, or Misinformation?": A Multimodal Dataset for Intent-Aware Synthetic Image Detection
- arxiv url: http://arxiv.org/abs/2508.20670v2
- Date: Tue, 09 Sep 2025 06:47:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:26.938374
- Title: "Humor, Art, or Misinformation?": A Multimodal Dataset for Intent-Aware Synthetic Image Detection
- Title(参考訳): 「Humor, Art, or Misinformation?」:インテント・アウェア・シンセティック・イメージ検出のためのマルチモーダル・データセット
- Authors: Anastasios Skoularikis, Stefanos-Iordanis Papadopoulos, Symeon Papadopoulos, Panagiotis C. Petrantonakis,
- Abstract要約: S-HArMはTwitter/XとRedditによる画像テキストペアの意図認識分類のためのデータセットである。
我々は,モータリティ融合,コントラスト学習,再構成ネットワーク,注意機構,大規模視覚言語モデルなど,幅広い比較研究を行っている。
その結果、画像とマルチモーダル誘導データに基づいてトレーニングされたモデルは、保存された視覚的コンテキストにより、"野生"のコンテンツよりも一般化されていることがわかった。
- 参考スコア(独自算出の注目度): 10.767207331364416
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in multimodal AI have enabled progress in detecting synthetic and out-of-context content. However, existing efforts largely overlook the intent behind AI-generated images. To fill this gap, we introduce S-HArM, a multimodal dataset for intent-aware classification, comprising 9,576 "in the wild" image-text pairs from Twitter/X and Reddit, labeled as Humor/Satire, Art, or Misinformation. Additionally, we explore three prompting strategies (image-guided, description-guided, and multimodally-guided) to construct a large-scale synthetic training dataset with Stable Diffusion. We conduct an extensive comparative study including modality fusion, contrastive learning, reconstruction networks, attention mechanisms, and large vision-language models. Our results show that models trained on image- and multimodally-guided data generalize better to "in the wild" content, due to preserved visual context. However, overall performance remains limited, highlighting the complexity of inferring intent and the need for specialized architectures.
- Abstract(参考訳): マルチモーダルAIの最近の進歩は、合成コンテンツとアウト・オブ・コンテクストコンテンツの検出の進歩を可能にしている。
しかし、既存の取り組みは、AI生成画像の背後にある意図を概ね見落としている。
このギャップを埋めるために、Twitter/XとRedditの9,576のイメージテキストペアをHumor/Satire、Art、Misinformationとラベル付けした、インテント対応分類のためのマルチモーダルデータセットであるS-HArMを紹介した。
さらに、安定拡散を用いた大規模合成学習データセットを構築するための3つのプロンプト戦略(画像誘導、記述誘導、マルチモーダル誘導)について検討する。
我々は,モータリティ融合,コントラスト学習,再構成ネットワーク,注意機構,大規模視覚言語モデルなど,幅広い比較研究を行っている。
その結果、画像とマルチモーダル誘導データに基づいてトレーニングされたモデルは、保存された視覚的コンテキストにより、"野生"のコンテンツよりも一般化されていることがわかった。
しかしながら、全体的なパフォーマンスは限定的であり、インテント推論の複雑さと特殊なアーキテクチャの必要性を強調している。
関連論文リスト
- Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Latent Multimodal Reconstruction for Misinformation Detection [15.66049149213069]
誤字画像などのマルチモーダルな誤報は、デジタル時代においてますます困難を呈している。
LVLM生成ミスキャプション画像データセットのコレクションである"Miscaption This!"を紹介する。
また、真偽の字幕の埋め込みを再構築するネットワーク「Latent Multimodal Reconstruction (LAMAR)」についても紹介する。
論文 参考訳(メタデータ) (2025-04-08T13:16:48Z) - MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training [62.843316348659165]
ディープラーニングに基づく画像マッチングアルゴリズムは、人間を劇的に上回り、大量の対応を素早く正確に見つける。
本稿では, 画像間の基本構造を認識し, 一致させるためのモデル学習のために, 合成モード間学習信号を利用する大規模事前学習フレームワークを提案する。
我々の重要な発見は、我々のフレームワークで訓練されたマッチングモデルが、目に見えない8つのクロスモダリティ登録タスクにまたがる顕著な一般化性を達成することである。
論文 参考訳(メタデータ) (2025-01-13T18:37:36Z) - Advanced Multimodal Deep Learning Architecture for Image-Text Matching [33.8315200009152]
画像テキストマッチングは、画像とテキスト間の意味的関連をマッチング関係としてモデル化することを目的とした、重要なマルチモーダルタスクである。
本稿では、視覚情報のための深層ニューラルネットワークの高レベル抽象表現能力と、テキスト意味理解のための自然言語処理モデルの利点を組み合わせた高度なマルチモーダルディープラーニングアーキテクチャを提案する。
実験の結果、既存の画像テキストマッチングモデルと比較して、最適化された新しいモデルは一連のベンチマークデータセットの性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-13T08:32:24Z) - Multi-source Semantic Graph-based Multimodal Sarcasm Explanation
Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。
TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文 参考訳(メタデータ) (2023-06-29T03:26:10Z) - Generalizable Synthetic Image Detection via Language-guided Contrastive Learning [22.533225521726116]
偽ニュースの拡散や偽のプロフィールの作成などの合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。
本稿では,言語誘導型コントラスト学習を用いた簡易かつ効果的な合成画像検出手法を提案する。
提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上していることが示されている。
論文 参考訳(メタデータ) (2023-05-23T08:13:27Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。