論文の概要: HydraPrompt: An Adaptive and Asymmetric Framework of Vision-Language Models for Synthetic Image Detection
- arxiv url: http://arxiv.org/abs/2605.26421v1
- Date: Tue, 26 May 2026 01:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.519518
- Title: HydraPrompt: An Adaptive and Asymmetric Framework of Vision-Language Models for Synthetic Image Detection
- Title(参考訳): HydraPrompt:合成画像検出のための視覚言語モデルの適応的で非対称なフレームワーク
- Authors: Senyuan Shi, Hao Tan, Zichang Tan, Shuhan Feng, Ajian Liu, Sergio Escalera, Jun Wan,
- Abstract要約: 本稿では,カテゴリ中心を微粒な画像の手がかりと整合させて調整する非対称なプロンプトフレームワークを提案する。
具体的には、一貫した代表パターンをキャプチャする一組のプロンプトを導入し、実際のコンテンツの統一アンカーとして機能する。
2)偽のカテゴリでは,サンプル適応型プロンプトを構築し,異なるサンプルから多様な手がかりを抽出し,偽画像の変動を適応的にモデル化する。
- 参考スコア(独自算出の注目度): 52.11418741192251
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid evolution of generative models has precipitated a proliferation of fabricated content, posing significant challenges to existing Synthetic Image Detection (SID) methods. Capitalizing on advancements in vision-language models (e.g., CLIP), recent attempts have leveraged learnable textual prompts to identify synthetic images. However, they still leverage static prompt as a fixed boundary for real and fake images, failing to adapt to the varying types of forgery that emerge during inference. To overcome this issue, we propose **HydraPrompt**, an asymmetric prompting framework that dynamically adjusts the category centers by aligning with fine-grained image cues. Specifically, we propose an Asymmetric Prompt Adapter (**APA**): (1) for authentic category, we introduce a single set of prompts to capture the consistent representative patterns, which serves as a unified anchor for real content. While (2) for fake category, we construct sample-adaptive prompts that specialize in capturing diverse cues from different samples, enabling adaptive modeling of forgery image variations. To increase pronounced discriminability within different synthetic images, we further introduce a Conditional Supervised Contrastive (**CSC**) objective, which compacts the authentic representations while capturing fine-grained forgery clues. Extensive experiments on popular SID benchmarks demonstrate the state-of-the-art performance of our framework.
- Abstract(参考訳): 生成モデルの急速な進化は、既存の合成画像検出(SID)法に重大な課題を生んでいる。
視覚言語モデル(例えばCLIP)の進歩に乗じて、最近の試みでは、学習可能なテキストプロンプトを活用して合成画像の識別を行っている。
しかし、まだ静的プロンプトを実画像と偽画像の固定境界として利用しており、推論中に現れる様々な種類の偽造に適応できない。
この問題を克服するために,非対称なプロンプトフレームワークである**HydraPrompt*を提案する。
具体的には,(1) Asymmetric Prompt Adapter (**APA**): (1) 真のカテゴリに対して,一貫した代表パターンをキャプチャする単一のプロンプトを導入し,実際のコンテンツの統一アンカーとして機能する。
2)偽のカテゴリでは,サンプル適応型プロンプトを構築し,異なるサンプルから多様な手がかりを抽出し,偽画像の変動を適応的にモデル化する。
異なる合成画像における顕著な識別性を高めるために,より微細な偽の手がかりを捕えながら,精度の高い表現をコンパクト化する条件付き監視コントラスト(**CSC**)の目的を導入する。
一般的なSIDベンチマークに関する大規模な実験は、我々のフレームワークの最先端性能を実証している。
関連論文リスト
- Text-Visual Semantic Constrained AI-Generated Image Quality Assessment [47.575342788480505]
本稿では,AI生成画像におけるテキスト画像の一貫性と知覚歪みの両方を包括的に評価する統合フレームワークを提案する。
このアプローチでは、複数のモデルから重要な機能を統合し、2つのコアモジュールを導入することで、上記の課題に取り組む。
複数のベンチマークデータセットで実施されたテストは、SC-AGIQAが既存の最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-07-14T16:21:05Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。