論文の概要: WMVLM: Evaluating Diffusion Model Image Watermarking via Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.21610v1
- Date: Thu, 29 Jan 2026 12:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.795573
- Title: WMVLM: Evaluating Diffusion Model Image Watermarking via Vision-Language Models
- Title(参考訳): WMVLM:視覚言語モデルによる拡散モデル画像透かしの評価
- Authors: Zijin Yang, Yu Sun, Kejiang Chen, Jiawei Zhao, Jun Jiang, Weiming Zhang, Nenghai Yu,
- Abstract要約: 拡散モデルから生成された画像を保護するためには,デジタル透かしが不可欠である。
従来の透かし評価手法では,残余と意味の両方の透かしの統一的な枠組みが欠如していた。
我々は,視覚言語モデルを用いた拡散モデル画像透かしのための最初の統一的・解釈可能な評価フレームワークLMを提案する。
- 参考スコア(独自算出の注目度): 79.32764976020435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital watermarking is essential for securing generated images from diffusion models. Accurate watermark evaluation is critical for algorithm development, yet existing methods have significant limitations: they lack a unified framework for both residual and semantic watermarks, provide results without interpretability, neglect comprehensive security considerations, and often use inappropriate metrics for semantic watermarks. To address these gaps, we propose WMVLM, the first unified and interpretable evaluation framework for diffusion model image watermarking via vision-language models (VLMs). We redefine quality and security metrics for each watermark type: residual watermarks are evaluated by artifact strength and erasure resistance, while semantic watermarks are assessed through latent distribution shifts. Moreover, we introduce a three-stage training strategy to progressively enable the model to achieve classification, scoring, and interpretable text generation. Experiments show WMVLM outperforms state-of-the-art VLMs with strong generalization across datasets, diffusion models, and watermarking methods.
- Abstract(参考訳): 拡散モデルから生成された画像を保護するためには,デジタル透かしが不可欠である。
アルゴリズム開発には正確な透かし評価が不可欠だが、既存の手法には重要な制限がある。残差と意味的な透かしの両方に統一された枠組みがなく、解釈不可能な結果を提供し、包括的なセキュリティ上の考慮を無視し、しばしばセマンティック透かしに不適切なメトリクスを使用する。
これらのギャップに対処するために,視覚言語モデル(VLM)を用いた拡散モデル画像透かしのための,最初の統一的で解釈可能な評価フレームワークであるWMVLMを提案する。
残余の透かしはアーチファクト強度と消去抵抗によって評価され、セマンティック透かしは潜伏分布シフトによって評価される。
さらに、分類、スコアリング、解釈可能なテキスト生成を段階的に実現するための3段階のトレーニング戦略を導入する。
実験により、WMVLMは、データセット、拡散モデル、透かし方法にまたがる強力な一般化を伴う最先端のVLMよりも優れた性能を示す。
関連論文リスト
- Optimization-Free Universal Watermark Forgery with Regenerative Diffusion Models [50.73220224678009]
ウォーターマーキングは、人工知能モデルによって生成された合成画像の起源を検証するために使用できる。
近年の研究では, 対象画像から表層画像への透かしを, 対角的手法を用いてフォージできることが示されている。
本稿では,最適化フリーで普遍的な透かし偽造のリスクが大きいことを明らかにする。
我々のアプローチは攻撃範囲を大きく広げ、現在の透かし技術の安全性により大きな課題をもたらす。
論文 参考訳(メタデータ) (2025-06-06T12:08:02Z) - Bridging Knowledge Gap Between Image Inpainting and Large-Area Visible Watermark Removal [57.84348166457113]
本稿では,事前学習した画像の塗装モデルの表現能力を活用する新しい特徴適応フレームワークを提案する。
本手法は, 透かしの残像の残像を塗布バックボーンモデルに流し込むことにより, 透かしと透かし除去の知識ギャップを埋めるものである。
高品質な透かしマスクへの依存を緩和するために,粗い透かしマスクを用いて推論プロセスを導出する新たな訓練パラダイムを導入する。
論文 参考訳(メタデータ) (2025-04-07T02:37:14Z) - Detection Limits and Statistical Separability of Tree Ring Watermarks in Rectified Flow-based Text-to-Image Generation Models [0.0]
ツリーリング透かしはAI生成画像の認証において重要な技術である。
SD 2.1 と FLUX.1-dev モデルによる透かしの検出と分離性の評価と比較を行った。
論文 参考訳(メタデータ) (2025-04-04T18:24:23Z) - Safe-VAR: Safe Visual Autoregressive Model for Text-to-Image Generative Watermarking [18.251123923955397]
自己回帰学習はテキストと画像の生成において支配的なアプローチとなり、高い効率と視覚的品質を提供する。
拡散モデルのために設計された既存の透かし法は、しばしばVARモデルのシーケンシャルな性質に適応するのに苦労する。
自動回帰テキスト・画像生成に特化して設計された最初のウォーターマーキングフレームワークであるSafe-VARを提案する。
論文 参考訳(メタデータ) (2025-03-14T11:45:10Z) - Dynamic watermarks in images generated by diffusion models [46.1135899490656]
高忠実度テキストから画像への拡散モデルが視覚コンテンツ生成に革命をもたらしたが、その普及は重大な倫理的懸念を提起している。
本稿では,拡散モデルのための新しい多段階透かしフレームワークを提案する。
我々の研究は、モデルオーナシップの検証と誤用防止のためのスケーラブルなソリューションを提供することで、AI生成コンテンツセキュリティの分野を前進させます。
論文 参考訳(メタデータ) (2025-02-13T03:23:17Z) - JIGMARK: A Black-Box Approach for Enhancing Image Watermarks against Diffusion Model Edits [76.25962336540226]
JIGMARKは、コントラスト学習による堅牢性を高める、第一級の透かし技術である。
本評価の結果,JIGMARKは既存の透かし法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-06T03:31:41Z) - MarkPlugger: Generalizable Watermark Framework for Latent Diffusion Models without Retraining [48.41130825143742]
AI生成コンテンツ(AIGC)の急速な発展期には、潜伏拡散モデル(LDM)の迅速な反復と修正により、ウォーターマークモデルによる再トレーニングがコストがかかる。
我々は,LDMの再学習を伴わない汎用的なプラグイン・アンド・プレイ・ウォーターマーク・フレームワークであるMarkPluggerを提案する。
実験結果から,本手法は画像品質と透かし回収率を効果的に調和させることがわかった。
論文 参考訳(メタデータ) (2024-04-08T15:29:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。