論文の概要: OpenSDI: Spotting Diffusion-Generated Images in the Open World
- arxiv url: http://arxiv.org/abs/2503.19653v1
- Date: Tue, 25 Mar 2025 13:43:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:51:46.745502
- Title: OpenSDI: Spotting Diffusion-Generated Images in the Open World
- Title(参考訳): OpenSDI: オープンワールドで拡散生成画像を見つける
- Authors: Yabin Wang, Zhiwu Huang, Xiaopeng Hong,
- Abstract要約: 本稿では,オープンワールド設定における拡散生成画像の発見に挑戦するOpenTrainingについて述べる。
オープンデータセット(OpenSDID)と呼ばれる新しいベンチマークを定義した。
Masked Autoencoder (MAE) と Contrastive Language- Image Pretrained (CLIP) を組み合わせた SPM ベースのモデルである MaskCLIP を導入する。
- 参考スコア(独自算出の注目度): 36.96139777755025
- License:
- Abstract: This paper identifies OpenSDI, a challenge for spotting diffusion-generated images in open-world settings. In response to this challenge, we define a new benchmark, the OpenSDI dataset (OpenSDID), which stands out from existing datasets due to its diverse use of large vision-language models that simulate open-world diffusion-based manipulations. Another outstanding feature of OpenSDID is its inclusion of both detection and localization tasks for images manipulated globally and locally by diffusion models. To address the OpenSDI challenge, we propose a Synergizing Pretrained Models (SPM) scheme to build up a mixture of foundation models. This approach exploits a collaboration mechanism with multiple pretrained foundation models to enhance generalization in the OpenSDI context, moving beyond traditional training by synergizing multiple pretrained models through prompting and attending strategies. Building on this scheme, we introduce MaskCLIP, an SPM-based model that aligns Contrastive Language-Image Pre-Training (CLIP) with Masked Autoencoder (MAE). Extensive evaluations on OpenSDID show that MaskCLIP significantly outperforms current state-of-the-art methods for the OpenSDI challenge, achieving remarkable relative improvements of 14.23% in IoU (14.11% in F1) and 2.05% in accuracy (2.38% in F1) compared to the second-best model in localization and detection tasks, respectively. Our dataset and code are available at https://github.com/iamwangyabin/OpenSDI.
- Abstract(参考訳): 本稿では,オープンワールド環境における拡散生成画像の発見に挑戦するOpenSDIについて述べる。
この課題に対応するために、オープンワールド拡散に基づく操作をシミュレートする大規模な視覚言語モデルを使用することにより、既存のデータセットと区別される新しいベンチマークOpenSDIデータセット(OpenSDID)を定義します。
OpenSDIDのもう1つの特長は、拡散モデルによりグローバルおよびローカルに操作された画像の検出とローカライズの両方を含まないことである。
OpenSDIの課題に対処するために、基礎モデルの混合を構築するためのSynergizing Pretrained Models (SPM)スキームを提案する。
このアプローチは、複数の事前訓練された基礎モデルとの協調メカニズムを利用して、OpenSDIコンテキストにおける一般化を強化する。
このスキームに基づいて,コントラスト言語画像事前学習(CLIP)とMasked Autoencoder(MAE)を協調するSPMベースのモデルであるMaskCLIPを導入する。
OpenSDIDの大規模な評価によると、MaskCLIPはOpenSDIチャレンジの最先端の手法を著しく上回り、IoUで14.23%(F1では14.11%)、精度で2.05%(F1では2.38%)の大幅な改善を実現している。
私たちのデータセットとコードはhttps://github.com/iamwangyabin/OpenSDI.orgで公開されています。
関連論文リスト
- MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - OneDiff: A Generalist Model for Image Difference Captioning [5.71214984158106]
画像差分キャプション(IDC)は、近縁な画像間の変化を正確に記述するために重要である。
OneDiffは、堅牢な視覚言語モデルアーキテクチャを利用する新しいジェネラリストアプローチである。
OneDiffは、既存の最先端モデルを精度と適応性で一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-08T06:14:37Z) - Latent Diffusion Models for Attribute-Preserving Image Anonymization [4.080920304681247]
本稿では,遅延拡散モデル(LDM)に基づく画像匿名化への最初のアプローチを提案する。
CAFLaGE-Baseは、事前訓練された制御ネットと、実画像と匿名画像との距離を増やすために設計された新しい制御機構を組み合わせた2つのLCMを提案する。
論文 参考訳(メタデータ) (2024-03-21T19:09:21Z) - Selective Hourglass Mapping for Universal Image Restoration Based on Diffusion Model [36.57703763466984]
そこで我々は拡散モデルDiffUIRに基づく高度な時間ガラスマッピング戦略を提案する。
5つの画像復元タスク、22のベンチマーク、ゼロショットの一般化設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-03-17T09:41:20Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - FedDiff: Diffusion Model Driven Federated Learning for Multi-Modal and
Multi-Clients [32.59184269562571]
我々はFedDiffと呼ばれる多モード協調拡散学習フレームワークを提案する。
本フレームワークは,2つのモーダルデータをエンコーダの別々の分岐に入力するデュアルブランチ拡散モデル特徴抽出設定を確立する。
複数のクライアント間のプライベートかつ効率的なコミュニケーションの課題を考慮し、拡散モデルを連合学習コミュニケーション構造に組み込む。
論文 参考訳(メタデータ) (2023-11-16T02:29:37Z) - Progressive Open Space Expansion for Open-Set Model Attribution [19.985618498466042]
我々は,OSMA(Open-Set Model Attribution)という課題に焦点をあて,既知のモデルに画像を同時に属性付けし,未知のモデルからそれらを識別する。
既存のオープンセット認識(OSR)タスクと比較して、OSMAは既知のモデルと未知のモデルとの区別が視覚的に知覚できないトレースに限られているため、より難しい。
本稿では, 閉集合と同一のセマンティクスを維持しつつ, 異なる認識不能なトレースを埋め込んだオープンセットサンプルをシミュレートした, プログレッシブオープンスペース拡張(POSE)ソリューションを提案する。
論文 参考訳(メタデータ) (2023-03-13T05:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。