論文の概要: What Lurks Within? Concept Auditing for Shared Diffusion Models at Scale
- arxiv url: http://arxiv.org/abs/2504.14815v1
- Date: Mon, 21 Apr 2025 02:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 19:51:56.205269
- Title: What Lurks Within? Concept Auditing for Shared Diffusion Models at Scale
- Title(参考訳): 内部のルークとは何か? 共有拡散モデルにおける概念監査
- Authors: Xiaoyong Yuan, Xiaolong Ma, Linke Guo, Lan Zhang,
- Abstract要約: 拡散モデル(DM)はテキスト・画像生成に革命をもたらし、テキスト・プロンプトから高度にリアルでカスタマイズされた画像を作成することができる。
オープンプラットフォーム上で細調整されたDMが広く共有されることは、倫理的および法的懸念を増大させる。
本稿では,新しいモデル中心の概念監査フレームワークであるPrompt-Agnostic Image-Free Auditing(PAIA)を紹介する。
- 参考スコア(独自算出の注目度): 18.11709856105131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models (DMs) have revolutionized text-to-image generation, enabling the creation of highly realistic and customized images from text prompts. With the rise of parameter-efficient fine-tuning (PEFT) techniques like LoRA, users can now customize powerful pre-trained models using minimal computational resources. However, the widespread sharing of fine-tuned DMs on open platforms raises growing ethical and legal concerns, as these models may inadvertently or deliberately generate sensitive or unauthorized content, such as copyrighted material, private individuals, or harmful content. Despite the increasing regulatory attention on generative AI, there are currently no practical tools for systematically auditing these models before deployment. In this paper, we address the problem of concept auditing: determining whether a fine-tuned DM has learned to generate a specific target concept. Existing approaches typically rely on prompt-based input crafting and output-based image classification but suffer from critical limitations, including prompt uncertainty, concept drift, and poor scalability. To overcome these challenges, we introduce Prompt-Agnostic Image-Free Auditing (PAIA), a novel, model-centric concept auditing framework. By treating the DM as the object of inspection, PAIA enables direct analysis of internal model behavior, bypassing the need for optimized prompts or generated images. We evaluate PAIA on 320 controlled model and 690 real-world community models sourced from a public DM sharing platform. PAIA achieves over 90% detection accuracy while reducing auditing time by 18-40x compared to existing baselines. To our knowledge, PAIA is the first scalable and practical solution for pre-deployment concept auditing of diffusion models, providing a practical foundation for safer and more transparent diffusion model sharing.
- Abstract(参考訳): 拡散モデル(DM)はテキスト・画像生成に革命をもたらし、テキスト・プロンプトから高度にリアルでカスタマイズされた画像を作成することができる。
LoRAのようなパラメータ効率のよい微調整(PEFT)技術の台頭により、ユーザは最小限の計算リソースを使用して、強力な事前学習モデルをカスタマイズできるようになった。
しかし、オープンプラットフォーム上で微調整されたDMが広く共有されることは、倫理的および法的懸念を増大させる。
生成AIに対する規制の注意が高まっているにもかかわらず、現在、これらのモデルをデプロイ前に体系的に監査する実用的なツールは存在しない。
本稿では,DMが特定の目標概念を生成することを学習したかどうかを判断する,概念監査の課題に対処する。
既存のアプローチは、通常、プロンプトベースの入力工法と出力ベースの画像分類に頼っているが、即時不確実性、概念のドリフト、スケーラビリティの低下など、重大な制限に悩まされている。
これらの課題を克服するために,新しいモデル中心の概念監査フレームワークであるPrompt-Agnostic Image-Free Auditing (PAIA)を紹介した。
DMを検査対象として扱うことにより、PAIAは、最適化されたプロンプトや生成された画像の必要性を回避し、内部モデルの振舞いを直接分析することができる。
公共DM共有プラットフォームから得られた320の制御モデルと690の現実世界のコミュニティモデル上でPAIAを評価する。
PAIAは、既存のベースラインと比較して監査時間を18~40倍削減しながら、90%以上の検出精度を達成する。
我々の知る限り、PAIAは拡散モデルの事前デプロイ概念監査のための最初のスケーラブルで実用的なソリューションであり、より安全で透明性の高い拡散モデル共有のための実用的な基盤を提供する。
関連論文リスト
- AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - PromptLA: Towards Integrity Verification of Black-box Text-to-Image Diffusion Models [17.12906933388337]
悪意のあるアクターは、不正なコンテンツを生成するためにT2I拡散モデルを微調整することができる。
本稿では,学習オートマトン(PromptLA)に基づく新しいプロンプト選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-20T07:24:32Z) - Model Integrity when Unlearning with T2I Diffusion Models [11.321968363411145]
「忘れ分布からのサンプルを特徴とする特定種類の画像の生成を減らすために、近似機械学習アルゴリズムを提案する。」
次に、既存のベースラインと比較してモデルの整合性を保つ上で優れた効果を示す未学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-04T13:15:28Z) - Towards Reliable Verification of Unauthorized Data Usage in Personalized Text-to-Image Diffusion Models [23.09033991200197]
新しいパーソナライズ技術は、特定のテーマやスタイルのイメージを作成するために、事前訓練されたベースモデルをカスタマイズするために提案されている。
このような軽量なソリューションは、パーソナライズされたモデルが不正なデータからトレーニングされているかどうかに関して、新たな懸念を生じさせる。
我々は、ブラックボックスパーソナライズされたテキスト・ツー・イメージ拡散モデルにおいて、不正なデータ使用を積極的に追跡する新しい手法であるSIRENを紹介する。
論文 参考訳(メタデータ) (2024-10-14T12:29:23Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Understanding the (Extra-)Ordinary: Validating Deep Model Decisions with Prototypical Concept-based Explanations [13.60538902487872]
本稿では, 実例的(地域的)かつクラス的(グローバル的)な意思決定戦略をプロトタイプを通じて伝達する, ポストホックなコンセプトベースXAIフレームワークを提案する。
我々は,3つのデータセットにまたがるアウト・オブ・ディストリビューション・サンプル,突発的なモデル行動,データ品質問題同定におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-28T10:53:26Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - WOUAF: Weight Modulation for User Attribution and Fingerprinting in Text-to-Image Diffusion Models [32.29120988096214]
本稿では,生成画像に責任を負うモデルフィンガープリントの新たなアプローチを提案する。
提案手法は,ユーザ固有のデジタル指紋に基づいて生成モデルを修正し,ユーザへ遡ることができるコンテンツにユニークな識別子を印字する。
論文 参考訳(メタデータ) (2023-06-07T19:44:14Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。