論文の概要: Leveraging Hierarchical Image-Text Misalignment for Universal Fake Image Detection
- arxiv url: http://arxiv.org/abs/2511.00427v1
- Date: Sat, 01 Nov 2025 06:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.772861
- Title: Leveraging Hierarchical Image-Text Misalignment for Universal Fake Image Detection
- Title(参考訳): ユニバーサルフェイク画像検出のための階層的画像-テキストミスアライメントの活用
- Authors: Daichi Zhang, Tong Zhang, Jianmin Bao, Shiming Ge, Sabine Süsstrunk,
- Abstract要約: 実画像と比較して,偽画像は対応するキャプションと適切に一致しないことを示す。
本稿では,視覚空間における画像テキストの不一致を識別的手がかりとして活用し,簡易かつ効果的なITEMを提案する。
- 参考スコア(独自算出の注目度): 58.927873049646024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of generative models, detecting generated fake images to prevent their malicious use has become a critical issue recently. Existing methods frame this challenge as a naive binary image classification task. However, such methods focus only on visual clues, yielding trained detectors susceptible to overfitting specific image patterns and incapable of generalizing to unseen models. In this paper, we address this issue from a multi-modal perspective and find that fake images cannot be properly aligned with corresponding captions compared to real images. Upon this observation, we propose a simple yet effective detector termed ITEM by leveraging the image-text misalignment in a joint visual-language space as discriminative clues. Specifically, we first measure the misalignment of the images and captions in pre-trained CLIP's space, and then tune a MLP head to perform the usual detection task. Furthermore, we propose a hierarchical misalignment scheme that first focuses on the whole image and then each semantic object described in the caption, which can explore both global and fine-grained local semantic misalignment as clues. Extensive experiments demonstrate the superiority of our method against other state-of-the-art competitors with impressive generalization and robustness on various recent generative models.
- Abstract(参考訳): 生成モデルの急速な発展に伴い、悪意のある使用を防ぐために生成された偽画像の検出が問題となっている。
既存の方法は、この課題を単純でバイナリなイメージ分類タスクとして表している。
しかし、このような手法は視覚的な手がかりにのみ焦点をあてており、特定の画像パターンに過度に適合し、目に見えないモデルに一般化できないような訓練された検出器が得られる。
本稿では,マルチモーダルな視点からこの問題に対処し,実画像と比較して,偽画像が対応するキャプションと適切に一致しないことを示す。
そこで本研究では,共同視覚空間における画像テキストの不一致を識別的手がかりとして利用することにより,ITEMと呼ばれる簡易かつ効果的な検出手法を提案する。
具体的には,まず,事前訓練したCLIP空間における画像とキャプションの誤りを計測し,MLPヘッドをチューニングして通常の検出処理を行う。
さらに,まず画像全体とキャプションに記述された各意味オブジェクトに焦点をあてた階層的ミスアライメント手法を提案し,グローバルな意味的ミスアライメントと微粒な意味的ミスアライメントの両方を手がかりとして探索する。
大規模実験により,近年の様々な生成モデルに顕著な一般化とロバスト性をともなう,最先端の競合相手に対する本手法の優位性を実証した。
関連論文リスト
- Beyond Single Images: Retrieval Self-Augmented Unsupervised Camouflaged Object Detection [18.382178646073474]
RISEは、トレーニングデータセット全体を利用して、単一画像のための擬似ラベルを生成するパラダイムである。
アノテーションを使わずにトレーニング画像のみを使用することは、高品質なプロトタイプライブラリ構築において顕著な課題である、と認識することが重要である。
KNN検索の段階では,特徴マップにおけるアーティファクトの影響を軽減するために,マルチビューKNN検索を提案する。
論文 参考訳(メタデータ) (2025-10-21T09:12:26Z) - Color Bind: Exploring Color Perception in Text-to-Image Models [40.094195503306295]
複数色を含むプロンプトに対する多目的セマンティックアライメントの問題を緩和する専用画像編集手法を提案する。
本手法は,様々なテキスト・画像拡散技術を用いて生成した画像から,幅広いメトリクスに対して性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-27T11:16:58Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Shrinking the Semantic Gap: Spatial Pooling of Local Moment Invariants
for Copy-Move Forgery Detection [7.460203098159187]
Copy-move forgeryは、特定のパッチをコピー&ペーストして画像に貼り付ける操作で、潜在的に違法または非倫理的使用がある。
コピー・ムーブ・フォージェリーの法医学的手法の進歩は,検出精度とロバスト性の向上に寄与している。
自己相似性が高い画像や強い信号の破損のある画像の場合、既存のアルゴリズムはしばしば非効率なプロセスと信頼性の低い結果を示す。
論文 参考訳(メタデータ) (2022-07-19T09:11:43Z) - LatteGAN: Visually Guided Language Attention for Multi-Turn
Text-Conditioned Image Manipulation [0.0]
視覚誘導言語注意GAN(LatteGAN)と呼ばれる新しいアーキテクチャを提案する。
LatteGANはジェネレータの微細なテキスト表現を抽出し、フェイク画像や実画像のグローバルな表現とローカルな表現の両方を識別する。
2つの異なるMTIMデータセットであるCoDrawとi-CLEVRの実験は、提案モデルの最先端性能を実証している。
論文 参考訳(メタデータ) (2021-12-28T03:50:03Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Fine-Grained Image Captioning with Global-Local Discriminative Objective [80.73827423555655]
本研究では, 細粒度記述キャプションの生成を容易にするため, グローバルな識別目的を提案する。
提案手法をMS-COCOデータセット上で評価した。
論文 参考訳(メタデータ) (2020-07-21T08:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。