論文の概要: AutoSplice: A Text-prompt Manipulated Image Dataset for Media Forensics
- arxiv url: http://arxiv.org/abs/2304.06870v1
- Date: Fri, 14 Apr 2023 00:14:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 15:03:07.768046
- Title: AutoSplice: A Text-prompt Manipulated Image Dataset for Media Forensics
- Title(参考訳): AutoSplice:メディア鑑識のためのテキストプロンプトによる画像データセット
- Authors: Shan Jia, Mingzhen Huang, Zhou Zhou, Yan Ju, Jialing Cai, Siwei Lyu
- Abstract要約: 本稿では,言語画像生成モデルがメディア法医学にもたらす課題のレベルを検討することを目的とする。
そこで本研究では,DALL-E2言語画像モデルを利用して,テキストプロンプトによって誘導されるマスキング領域を自動的に生成し,スプライスする手法を提案する。
このアプローチによってAutoSpliceと呼ばれる新しいイメージデータセットが作成され、5,894個の操作と認証されたイメージが含まれている。
- 参考スコア(独自算出の注目度): 31.714342131823987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in language-image models have led to the development of
highly realistic images that can be generated from textual descriptions.
However, the increased visual quality of these generated images poses a
potential threat to the field of media forensics. This paper aims to
investigate the level of challenge that language-image generation models pose
to media forensics. To achieve this, we propose a new approach that leverages
the DALL-E2 language-image model to automatically generate and splice masked
regions guided by a text prompt. To ensure the creation of realistic
manipulations, we have designed an annotation platform with human checking to
verify reasonable text prompts. This approach has resulted in the creation of a
new image dataset called AutoSplice, containing 5,894 manipulated and authentic
images. Specifically, we have generated a total of 3,621 images by locally or
globally manipulating real-world image-caption pairs, which we believe will
provide a valuable resource for developing generalized detection methods in
this area. The dataset is evaluated under two media forensic tasks: forgery
detection and localization. Our extensive experiments show that most media
forensic models struggle to detect the AutoSplice dataset as an unseen
manipulation. However, when fine-tuned models are used, they exhibit improved
performance in both tasks.
- Abstract(参考訳): 言語画像モデルの最近の進歩は、テキスト記述から生成できる非常に現実的な画像の開発につながっている。
しかし、これらの画像の視覚品質が高まることは、メディア法医学の分野に潜在的な脅威をもたらす。
本稿では,言語画像生成モデルがメディア法医学にもたらす課題のレベルを検討することを目的とする。
そこで本研究では,dall-e2言語画像モデルを用いて,テキストプロンプトによるマスキング領域の自動生成とスプライシングを行う新しい手法を提案する。
現実的な操作を確実にするために、人間によるチェックによるアノテーションプラットフォームを設計し、適切なテキストプロンプトを検証する。
このアプローチによってAutoSpliceと呼ばれる新しいイメージデータセットが作成され、5,894個の操作と認証されたイメージが含まれている。
具体的には,実世界のイメージキャプチャペアを局所的あるいはグローバル的に操作することで,合計3,621枚の画像を生成した。
データセットは、偽検出とローカライゼーションの2つのメディア法医学的タスクで評価される。
我々の広範な実験によると、ほとんどのメディア法医学モデルはAutoSpliceデータセットを目に見えない操作として検出するのに苦労している。
しかし、微調整モデルを使用すると、両方のタスクで性能が向上する。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。