論文の概要: DGM4+: Dataset Extension for Global Scene Inconsistency
- arxiv url: http://arxiv.org/abs/2509.26047v1
- Date: Tue, 30 Sep 2025 10:24:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.09863
- Title: DGM4+: Dataset Extension for Global Scene Inconsistency
- Title(参考訳): DGM4+:グローバルシーン不整合のためのデータセット拡張
- Authors: Gagandeep Singh, Samudi Amarsinghe, Priyanka Singh, Xue Li,
- Abstract要約: 創作されたイメージと操作されたキャプションは、説得力のある偽の物語を生み出すために、ますます共起的になっている。
我々はDGM4を5000の高品質なサンプルで拡張し、FG-BGのミスマッチとテキスト操作によるハイブリッドを取り入れた。
このリソースは、現在FG-BGの不整合に苦しんでいるHAMMERのようなマルチモーダルモデルの評価を強化することを目的としている。
- 参考スコア(独自算出の注目度): 13.811302082721715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advances in generative models have significantly lowered the barrier to producing convincing multimodal disinformation. Fabricated images and manipulated captions increasingly co-occur to create persuasive false narratives. While the Detecting and Grounding Multi-Modal Media Manipulation (DGM4) dataset established a foundation for research in this area, it is restricted to local manipulations such as face swaps, attribute edits, and caption changes. This leaves a critical gap: global inconsistencies, such as mismatched foregrounds and backgrounds, which are now prevalent in real-world forgeries. To address this, we extend DGM4 with 5,000 high-quality samples that introduce Foreground-Background (FG-BG) mismatches and their hybrids with text manipulations. Using OpenAI's gpt-image-1 and carefully designed prompts, we generate human-centric news-style images where authentic figures are placed into absurd or impossible backdrops (e.g., a teacher calmly addressing students on the surface of Mars). Captions are produced under three conditions: literal, text attribute, and text split, yielding three new manipulation categories: FG-BG, FG-BG+TA, and FG-BG+TS. Quality control pipelines enforce one-to-three visible faces, perceptual hash deduplication, OCR-based text scrubbing, and realistic headline length. By introducing global manipulations, our extension complements existing datasets, creating a benchmark DGM4+ that tests detectors on both local and global reasoning. This resource is intended to strengthen evaluation of multimodal models such as HAMMER, which currently struggle with FG-BG inconsistencies. We release our DGM4+ dataset and generation script at https://github.com/Gaganx0/DGM4plus
- Abstract(参考訳): 生成モデルの急速な進歩は、説得力のあるマルチモーダルな偽情報を生み出す障壁を著しく低下させた。
創作されたイメージと操作されたキャプションは、説得力のある偽の物語を生み出すために、ますます共起的になっている。
Detecting and Grounding Multi-Modal Media Manipulation (DGM4)データセットはこの領域で研究の基盤を確立する一方で、顔スワップ、属性編集、キャプション変更などの局所的な操作に限定されている。
これは重要なギャップを残している。例えば、世界的不整合、例えば不整合前景や背景は、現在現実世界の偽造品で広く使われている。
これを解決するために、DGM4を5000個の高品質なサンプルで拡張し、FG-BGのミスマッチとテキスト操作によるハイブリッドを導入する。
OpenAIのgpt-image-1と慎重にデザインされたプロンプトを用いて、真正な人物を不条理な背景や不可能な背景(例えば、火星表面の学生に静かに話しかける教師)に配置する、人間中心のニューススタイルのイメージを生成する。
リテラル、テキスト属性、テキスト分割という3つの条件の下で、FG-BG、FG-BG+TA、FG-BG+TSという3つの新しい操作カテゴリが生成される。
品質制御パイプラインは、1対3の可視顔、知覚的なハッシュ重複、OCRベースのテキストスクラブ、リアルな見出しの長さを強制する。
グローバルな操作を導入することで、当社のエクステンションは既存のデータセットを補完し、ローカルおよびグローバルな推論の両方で検出器をテストするベンチマークDGM4+を作成します。
このリソースは、現在FG-BGの不整合に苦しんでいるHAMMERのようなマルチモーダルモデルの評価を強化することを目的としている。
DGM4+データセットと生成スクリプトをhttps://github.com/Gaganx0/DGM4plusでリリースしています。
関連論文リスト
- SGS: Segmentation-Guided Scoring for Global Scene Inconsistencies [12.411852993988672]
HAMMERはマルチモーダル操作検出のための最先端モデルである。
主主題が文脈的に不明瞭な背景に置かれると、それは一貫して失敗する。
本稿では,軽量なセグメンテーション誘導型スコアリングパイプラインを提案する。
論文 参考訳(メタデータ) (2025-09-30T10:15:11Z) - Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations [56.816929931908824]
マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。
本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
論文 参考訳(メタデータ) (2025-09-16T04:18:48Z) - SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。
生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。
生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文 参考訳(メタデータ) (2025-01-06T12:09:08Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - GenRC: Generative 3D Room Completion from Sparse Image Collections [17.222652213723485]
GenRCは、高忠実度テクスチャを備えたルームスケールの3Dメッシュを完成させる、自動トレーニングフリーパイプラインである。
E-Diffusionは、大域幾何学と外観整合性を保証するビュー一貫性パノラマRGBD画像を生成する。
GenRCは、ScanNetとARKitScenesデータセットのほとんどの外観と幾何学的メトリクスの下で、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-07-17T18:10:40Z) - RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles [14.205559299967423]
近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。
悪意のある意図を持つユーザは、これらのオープンソース LLM を使用して、有害なテキストや、大規模な偽情報を生成することができる。
この問題を軽減するために、与えられたテキストがディープフェイクテキストであるか否かを判定する計算方法を提案する。
そこで我々はTopFormerを提案し、より言語的なパターンをディープフェイクテキストに取り込み、既存のAAソリューションを改善する。
論文 参考訳(メタデータ) (2023-09-22T15:32:49Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。