論文の概要: AGMark: Attention-Guided Dynamic Watermarking for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.09611v1
- Date: Tue, 10 Feb 2026 10:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.486151
- Title: AGMark: Attention-Guided Dynamic Watermarking for Large Vision-Language Models
- Title(参考訳): AGMark: 大きなビジョンランゲージモデルのための注意誘導動的透かし
- Authors: Yue Li, Xin Yi, Dongsheng Shi, Yongyi Cui, Gerard de Melo, Linlin Wang,
- Abstract要約: 視覚に依存しない透かしは、視覚的に無関係なトークンを導入し、視覚的な接地を妨害する。
我々は注意誘導動的透かし (AGMark) を提案する。
AGMarkは、視覚的忠実さを厳密に保ちながら検出可能な信号を埋め込む。
- 参考スコア(独自算出の注目度): 28.393476667026523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watermarking has emerged as a pivotal solution for content traceability and intellectual property protection in Large Vision-Language Models (LVLMs). However, vision-agnostic watermarks may introduce visually irrelevant tokens and disrupt visual grounding by enforcing indiscriminate pseudo-random biases. Additionally, current vision-specific watermarks rely on a static, one-time estimation of vision critical weights and ignore the weight distribution density when determining the proportion of protected tokens. This design fails to account for dynamic changes in visual dependence during generation and may introduce low-quality tokens in the long tail. To address these challenges, we propose Attention-Guided Dynamic Watermarking (AGMark), a novel framework that embeds detectable signals while strictly preserving visual fidelity. At each decoding step, AGMark first dynamically identifies semantic-critical evidence based on attention weights for visual relevance, together with context-aware coherence cues, resulting in a more adaptive and well-calibrated evidence-weight distribution. It then determines the proportion of semantic-critical tokens by jointly considering uncertainty awareness (token entropy) and evidence calibration (weight density), thereby enabling adaptive vocabulary partitioning to avoid irrelevant tokens. Empirical results confirm that AGMark outperforms conventional methods, observably improving generation quality and yielding particularly strong gains in visual semantic fidelity in the later stages of generation. The framework maintains highly competitive detection accuracy (at least 99.36\% AUC) and robust attack resilience (at least 88.61\% AUC) without sacrificing inference efficiency, effectively establishing a new standard for reliability-preserving multi-modal watermarking.
- Abstract(参考訳): ウォーターマーキングは、LVLM(Large Vision-Language Models)におけるコンテンツトレーサビリティと知的財産保護のための重要なソリューションとして登場した。
しかし、視覚に依存しない透かしは、無差別な擬似ランダムバイアスを強制することによって、視覚的に無関係なトークンを導入し、視覚的な接地を妨害する可能性がある。
さらに、現在の視覚固有の透かしは、視力クリティカルウェイトを静的に1回に見積もることに依存し、保護トークンの割合を決定する際に重量分布密度を無視する。
この設計は、生成中の視覚的依存の動的変化を考慮せず、長い尾に低品質のトークンを導入する可能性がある。
これらの課題に対処するために,視覚的忠実さを厳密に保ちながら検出可能な信号を埋め込む新しいフレームワークであるAttention-Guided Dynamic Watermarking (AGMark)を提案する。
復号処理の各ステップにおいて、AGMarkは視覚的関連性に対する注意重みに基づく意味クリティカルなエビデンスを、文脈認識のコヒーレンスキューとともに動的に識別し、より適応的でよく校正されたエビデンス-重み分布をもたらす。
そして、不確実性認識(トークンエントロピー)とエビデンスキャリブレーション(エビデンスキャリブレーション)を共同で考慮し、意味クリティカルトークンの割合を判定し、不適切なトークンを避けるために適応的な語彙分割を可能にする。
実験の結果,AGMarkは従来の手法よりも優れており,生成の質が良好に向上し,生成後期の視覚的意味的忠実度が特に高いことが確認された。
このフレームワークは、高い競争力のある検出精度(少なくとも99.36\% AUC)と堅牢な攻撃レジリエンス(少なくとも88.61\% AUC)を維持し、推論効率を犠牲にすることなく、信頼性を保つマルチモーダル透かしの新しい標準を効果的に確立している。
関連論文リスト
- X-Mark: Saliency-Guided Robust Dataset Ownership Verification for Medical Imaging [67.85884025186755]
高品質な医用画像データセットは深層学習モデルの訓練には不可欠であるが、その無許可の使用は重大な著作権と倫理的懸念を提起する。
医用画像は、自然画像用に設計された既存のデータセットの所有権検証方法に固有の課題を示す。
胸部X線著作権保護のためのサンプル特異的クリーンラベル透かし法であるX-Markを提案する。
論文 参考訳(メタデータ) (2026-02-10T00:03:43Z) - A Visual Semantic Adaptive Watermark grounded by Prefix-Tuning for Large Vision-Language Model [48.79816664229285]
Visual Semantic Adaptive Watermark (VISA-Mark)は、視覚の忠実さを厳密に保ちながら検出可能な信号を埋め込む新しいフレームワークである。
提案手法では,動的ビジュアルエビデンス重みを抽出するために,軽量で効率的に訓練されたプレフィックスチューナーを用いる。
実験の結果、VISA-Markは視覚的一貫性が7.8%向上した従来の手法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2026-01-12T07:55:13Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - StableGuard: Towards Unified Copyright Protection and Tamper Localization in Latent Diffusion Models [55.05404953041403]
拡散生成プロセスにバイナリ透かしをシームレスに統合する新しいフレームワークを提案する。
画像の忠実さ、透かしの検証、ローカライゼーションの改ざんにおいて、StableGuardは一貫して最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T16:35:19Z) - VLA-Mark: A cross modal watermark for large vision-language alignment model [44.59029116115437]
VLA-Markは視覚対応のフレームワークで、検出可能な透かしを埋め込むと同時に、クロスモーダルコーディネートを通じて意味的忠実さを保っている。
提案手法は,局所的パッチ親和性,大域的セマンティックコヒーレンス,文脈的注意パターンを組み合わせ,マルチスケールの視覚・テクスチュアアアライメントメトリクスを統合する。
実験では、PPLが7.4%低く、BLEUが26.6%高い。
論文 参考訳(メタデータ) (2025-07-18T16:44:41Z) - ARBEx: Attentive Feature Extraction with Reliability Balancing for Robust Facial Expression Learning [5.648318448953635]
ARBExはVision Transformerによって駆動される新しい注意的特徴抽出フレームワークである。
ラベル分布とマルチヘッド自己保持機構を備えた埋め込み空間において学習可能なアンカーポイントを用いて、弱い予測に対する性能を最適化する。
我々の戦略は、様々な文脈で実施された広範な実験により、現在の最先端の方法論よりも優れています。
論文 参考訳(メタデータ) (2023-05-02T15:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。