論文の概要: TextFake: Benchmarking AI-Generated Image Detection on Text-Rich Images
- arxiv url: http://arxiv.org/abs/2606.01050v1
- Date: Sun, 31 May 2026 06:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.173568
- Title: TextFake: Benchmarking AI-Generated Image Detection on Text-Rich Images
- Title(参考訳): TextFake: テキストリッチイメージによるAI生成画像のベンチマーク
- Authors: Yuning Zhang, Changtao Miao, Mingyu Liao, Tingyu Liu, Xinghao Wang, Tao Gong, Qi Chu, Nenghai Yu,
- Abstract要約: TextFakeは、28言語にわたるテキストリッチAIGI検出のための20,000イメージのベンチマークである。
フェイクイメージは、実際の画像を3つの制御された次元に沿ってアノテートする4段階のパイプラインを介して合成される。
80%を超えるメソッドはなく、一部は自然画像のベンチマークから60%以上落ちている。
- 参考スコア(独自算出の注目度): 45.701818427706684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent AI-generated image (AIGI) detectors perform well on natural-image benchmarks, but their behavior on text-rich forgeries, such as fabricated screenshots, documents, and news pages prevalent in misinformation, remains untested. We introduce TextFake, a 20,000-image benchmark for text-rich AIGI detection spanning 28 languages, 4 topic categories, and 2 scene modalities. Fake images are synthesized via a four-stage pipeline that annotates real images along three controlled dimensions and generates counterparts through distribution-aligned structured prompting, ruling out covariate shortcuts. Zero-shot evaluation of 14 specialized detectors and 3 frontier VLM APIs reveals a large systematic gap: no method exceeds 80% accuracy, with some dropping over 60% from natural-image benchmarks. Diagnostic evaluations identify three failure modes: the Text Density Curse, where dense glyphs overwhelm low-level detectors; Cloaking via Rendering Fidelity, where stronger text rendering suppresses enerative artifacts; and Threshold Collapse, where routine perturbations drive detectors toward chance-level performance.
- Abstract(参考訳): 最近のAIGI検出器は、自然画像のベンチマークでよく機能するが、偽造されたスクリーンショット、文書、誤情報でよく見られるニュースページなど、テキストに富んだ偽造物に対する振る舞いは、まだ検証されていない。
テキストリッチAIGI検出のための2万イメージのベンチマークであるTextFakeを紹介した。
フェイクイメージは、実画像を3つの制御された次元に沿ってアノテートし、分布整列された構造化プロンプトを通じて、共変量ショートカットを除外する4段階のパイプラインを介して合成される。
14の特殊検出器と3つのフロンティアVLM APIのゼロショット評価は、大きな体系的なギャップを明らかにしている。
診断評価では、高密度のグリフが低レベルの検出器を圧倒するテキスト密度曲線、より強いテキストレンダリングがエレクティブなアーティファクトを抑制するRendering Fidelityによるクローキング、定期的な摂動が検出器をチャンスレベルのパフォーマンスに導くThreshold Collapseの3つの障害モードが特定されている。
関連論文リスト
- Diversity Boosts AI-Generated Text Detection [51.56484100374058]
DivEyeは、予備的な機能を使って、予測不可能がテキスト間でどのように変動するかをキャプチャする、新しいフレームワークである。
提案手法は、既存のゼロショット検出器を最大33.2%向上させ、微調整ベースラインとの競合性能を達成する。
論文 参考訳(メタデータ) (2025-09-23T10:21:22Z) - Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。
本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。
我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T02:10:16Z) - Benchmarking Robustness of Text-Image Composed Retrieval [46.98557472744255]
テキスト画像合成検索は、合成されたクエリを通してターゲット画像を取得することを目的としている。
近年,情報に富む画像と簡潔な言語の両方を活用する能力に注目が集まっている。
しかし、現実世界の腐敗やさらなるテキスト理解に対するこれらのアプローチの堅牢性は研究されていない。
論文 参考訳(メタデータ) (2023-11-24T20:16:38Z) - AntifakePrompt: Prompt-Tuned Vision-Language Models are Fake Image Detectors [24.78672820633581]
深層生成モデルは、偽情報や著作権侵害に対する懸念を高めながら、驚くほど偽のイメージを作成することができる。
実画像と偽画像とを区別するためにディープフェイク検出技術が開発された。
本稿では,視覚言語モデルとアクシデントチューニング技術を用いて,Antifake Promptと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-26T14:23:45Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。