Fugu-MT 論文翻訳(概要): TGIF2: Extended Text-Guided Inpainting Forgery Dataset & Benchmark

論文の概要: TGIF2: Extended Text-Guided Inpainting Forgery Dataset & Benchmark

arxiv url: http://arxiv.org/abs/2603.28613v1
Date: Mon, 30 Mar 2026 15:59:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:45.499723
Title: TGIF2: Extended Text-Guided Inpainting Forgery Dataset & Benchmark
Title（参考訳）: TGIF2: 拡張テキストガイドインペイントフォージェリデータセットとベンチマーク
Authors: Hannes Mareen, Dimitrios Karageorgiou, Paschalis Giakoumoglou, Peter Lambert, Symeon Papadopoulos, Glenn Van Wallendael,
Abstract要約: ジェネレーティブAIは、テキスト誘導による強力な画像編集ツールのインペイントを図ったが、同時にメディアの法医学の課題も増えている。既存のベンチマークでは、テキスト誘導インペイントフォージェリ(TGIF)データセットを含め、画像フォージェリローカライゼーション(IFL)メソッドがスプリケートされた画像内の操作をローカライズできるが、完全再生(FR)イメージでは困難であることを示す。我々は,TGIFの拡張版であるTGIF2を導入し,最近のテキスト誘導インペイントの進歩を捉え,法医学的堅牢性のより深い分析を可能にする。
参考スコア（独自算出の注目度）: 13.110334153426864
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Generative AI has made text-guided inpainting a powerful image editing tool, but at the same time a growing challenge for media forensics. Existing benchmarks, including our text-guided inpainting forgery (TGIF) dataset, show that image forgery localization (IFL) methods can localize manipulations in spliced images but struggle not in fully regenerated (FR) images, while synthetic image detection (SID) methods can detect fully regenerated images but cannot perform localization. With new generative inpainting models emerging and the open problem of localization in FR images remaining, updated datasets and benchmarks are needed. We introduce TGIF2, an extended version of TGIF, that captures recent advances in text-guided inpainting and enables a deeper analysis of forensic robustness. TGIF2 augments the original dataset with edits generated by FLUX.1 models, as well as with random non-semantic masks. Using the TGIF2 dataset, we conduct a forensic evaluation spanning IFL and SID, including fine-tuning IFL methods on FR images and generative super-resolution attacks. Our experiments show that both IFL and SID methods degrade on FLUX.1 manipulations, highlighting limited generalization. Additionally, while fine-tuning improves localization on FR images, evaluation with random non-semantic masks reveals object bias. Furthermore, generative super-resolution significantly weakens forensic traces, demonstrating that common image enhancement operations can undermine current forensic pipelines. In summary, TGIF2 provides an updated dataset and benchmark, which enables new insights into the challenges posed by modern inpainting and AI-based image enhancements. TGIF2 is available at https://github.com/IDLabMedia/tgif-dataset.
Abstract（参考訳）: ジェネレーティブAIは、強力な画像編集ツールをテキストガイドで描いたが、同時にメディアの法医学の課題も増えている。既存のベンチマークでは、テキスト誘導インペイントフォージェリ(TGIF)データセットを含む、画像フォージェリローカライゼーション(IFL)手法は、スプリケート画像中の操作をローカライズできるが、完全再生(FR)画像には耐えられず、合成画像検出(SID)手法は完全再生イメージを検出できるが、ローカライゼーションはできない。新たな生成的着色モデルが出現し、FR画像の局所化に関するオープンな問題が残されているため、更新されたデータセットとベンチマークが必要である。我々は,TGIFの拡張版であるTGIF2を導入し,最近のテキスト誘導インペイントの進歩を捉え,法医学的堅牢性のより深い分析を可能にする。 TGIF2はFLUX.1モデルで生成された編集とランダムな非セマンティックマスクでオリジナルのデータセットを拡張する。 TGIF2データセットを用いて、FR画像の微調整IFL法や生成超解像攻撃を含む、IFLとSIDにまたがる法医学的評価を行う。 IFL法とSID法はいずれもFLUX.1操作で劣化し,限定的な一般化が示された。さらに、微調整によりFR画像のローカライズが向上する一方、ランダムな非意味マスクによる評価は、対象バイアスを明らかにする。さらに、生成超解像は法医学的痕跡を著しく弱め、一般的な画像強調操作が現行の法医学的パイプラインを損なうことを実証した。要約すると、TGIF2は最新のデータセットとベンチマークを提供する。 TGIF2はhttps://github.com/IDLabMedia/tgif-dataset.comで入手できる。

関連論文リスト

Wukong Framework for Not Safe For Work Detection in Text-to-Image systems [25.516648802281626]
WukongはトランスフォーマーベースのNSFW検出フレームワークである。初期段階からの中間出力を利用して、U-Netのトレーニング済みのクロスアテンションパラメータを再利用する。その結果、Wukongはテキストベースの安全ガードを著しく上回り、画像フィルタの精度に匹敵する結果を得た。
論文参考訳（メタデータ） (2025-08-01T12:45:30Z)
ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning [89.19449553099747]
テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題点について検討する。本稿では、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだフレームワークを提案する。このデータセットを用いてMLLMを微調整し、文脈推論能力を向上する。
論文参考訳（メタデータ） (2025-03-25T03:18:46Z)
NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering [47.442844594442455]
NextFrequency Image Generation (NFIG)は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。 NFIGは生成過程を自然な画像構造と整合させる。これは最初に低周波成分を生成し、トークンを著しく少なくして効率的にグローバル構造を捉え、その後、徐々に高周波の細部を付加することで実現している。
論文参考訳（メタデータ） (2025-03-10T08:59:10Z)
TGIF: Text-Guided Inpainting Forgery Dataset [12.923437316521937]
デジタル画像操作は、生成AI技術の出現により、ますますアクセスしやすく、現実的なものになりつつある。近年の進歩により、テキストガイドによるインペイントが可能となり、最小限の努力で高度な画像編集が可能になった。本稿では,画像フォージェリローカライゼーションと合成画像検出手法のトレーニングと評価を支援するために設計された画像集合であるText-Guided Inpainting Forgeryデータセットを紹介する。
論文参考訳（メタデータ） (2024-07-16T10:19:14Z)
TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image Super-Resolution [17.95994419104427]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文参考訳（メタデータ） (2023-08-13T11:02:16Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文参考訳（メタデータ） (2023-05-10T07:39:14Z)
AutoSplice: A Text-prompt Manipulated Image Dataset for Media Forensics [31.714342131823987]
本稿では,言語画像生成モデルがメディア法医学にもたらす課題のレベルを検討することを目的とする。そこで本研究では,DALL-E2言語画像モデルを利用して,テキストプロンプトによって誘導されるマスキング領域を自動的に生成し,スプライスする手法を提案する。このアプローチによってAutoSpliceと呼ばれる新しいイメージデータセットが作成され、5,894個の操作と認証されたイメージが含まれている。
論文参考訳（メタデータ） (2023-04-14T00:14:08Z)
XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。 XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文参考訳（メタデータ） (2020-03-03T12:13:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。