論文の概要: A Visual Semantic Adaptive Watermark grounded by Prefix-Tuning for Large Vision-Language Model
- arxiv url: http://arxiv.org/abs/2601.07291v1
- Date: Mon, 12 Jan 2026 07:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.273559
- Title: A Visual Semantic Adaptive Watermark grounded by Prefix-Tuning for Large Vision-Language Model
- Title(参考訳): 大規模視覚言語モデルのためのプレフィックスチューニングによる視覚的セマンティック適応型透かし
- Authors: Qi Zheng, Shuliang Liu, Yu Huang, Sihang Jia, Jungang Li, Lyuhao Chen, Junhao Chen, Hanqian Li, Aiwei Liu, Yibo Yan, Xuming Hu,
- Abstract要約: Visual Semantic Adaptive Watermark (VISA-Mark)は、視覚の忠実さを厳密に保ちながら検出可能な信号を埋め込む新しいフレームワークである。
提案手法では,動的ビジュアルエビデンス重みを抽出するために,軽量で効率的に訓練されたプレフィックスチューナーを用いる。
実験の結果、VISA-Markは視覚的一貫性が7.8%向上した従来の手法よりも優れていたことが確認された。
- 参考スコア(独自算出の注目度): 48.79816664229285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watermarking has emerged as a pivotal solution for content traceability and intellectual property protection in Large Vision-Language Models (LVLMs). However, vision-agnostic watermarks introduce visually irrelevant tokens and disrupt visual grounding by enforcing indiscriminate pseudo-random biases, while some semantic-aware methods incur prohibitive inference latency due to rejection sampling. In this paper, we propose the VIsual Semantic Adaptive Watermark (VISA-Mark), a novel framework that embeds detectable signals while strictly preserving visual fidelity. Our approach employs a lightweight, efficiently trained prefix-tuner to extract dynamic Visual-Evidence Weights, which quantify the evidentiary support for candidate tokens based on the visual input. These weights guide an adaptive vocabulary partitioning and logits perturbation mechanism, concentrating watermark strength specifically on visually-supported tokens. By actively aligning the watermark with visual evidence, VISA-Mark effectively maintains visual fidelity. Empirical results confirm that VISA-Mark outperforms conventional methods with a 7.8% improvement in visual consistency (Chair-I) and superior semantic fidelity. The framework maintains highly competitive detection accuracy (96.88% AUC) and robust attack resilience (99.3%) without sacrificing inference efficiency, effectively establishing a new standard for reliability-preserving multimodal watermarking.
- Abstract(参考訳): ウォーターマーキングは、LVLM(Large Vision-Language Models)におけるコンテンツトレーサビリティと知的財産保護のための重要なソリューションとして登場した。
しかし、視覚に依存しない透かしは、識別できない擬似ランダムバイアスを強制することによって、視覚的に無関係なトークンを導入し、視覚的基盤を乱す。
本稿では,視覚的忠実度を厳密に保ちながら検出可能な信号を埋め込む新しいフレームワークであるVISA-Markを提案する。
提案手法では,動的ビジュアルエビデンス重みを抽出するために,軽量で効率的なプレフィックスタナーを用いて,視覚入力に基づいて候補トークンの明示的サポートを定量化する。
これらの重みは適応的な語彙分割と対物摂動機構を導き、特に視覚的に支えられたトークンに透かしの強さを集中させる。
透かしを視覚的証拠と積極的に整合させることで、VISA-Markは視覚的忠実さを効果的に維持する。
VISA-Markは、視覚的一貫性(Chair-I)が7.8%向上し、セマンティック忠実度が優れ、従来の手法よりも優れていたことが実証された。
このフレームワークは、高い競争力のある検出精度 (96.88% AUC) と堅牢な攻撃レジリエンス (99.3%) を維持し、推論効率を犠牲にすることなく、信頼性を保つマルチモーダル透かしの新しい標準を効果的に確立している。
関連論文リスト
- Distilling the Thought, Watermarking the Answer: A Principle Semantic Guided Watermark for Large Reasoning Models [46.12198035083885]
本稿では推論集約型LLM用に設計された新しい透かしフレームワークであるReasonMarkを紹介する。
提案手法は, 生成を非破壊思考相と透かし解答相に分解する。
実験の結果、ReasonMark はテキストのパープレクシティを 0.35 に減らし、BLEU のスコアを0.164 に増やし、数学的精度を 0.67 ポイント向上させることで最先端の手法を上回った。
論文 参考訳(メタデータ) (2026-01-08T17:32:22Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - StableGuard: Towards Unified Copyright Protection and Tamper Localization in Latent Diffusion Models [55.05404953041403]
拡散生成プロセスにバイナリ透かしをシームレスに統合する新しいフレームワークを提案する。
画像の忠実さ、透かしの検証、ローカライゼーションの改ざんにおいて、StableGuardは一貫して最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T16:35:19Z) - Semantic Watermarking Reinvented: Enhancing Robustness and Generation Quality with Fourier Integrity [31.666430190864947]
我々はHermitian Symmetric Fourier Watermarking (SFW)と呼ばれる新しい埋め込み手法を提案する。
SFWはエルミート対称性を強制することによって周波数整合性を維持する。
我々は,収穫攻撃による意味的透かしの脆弱性を低減する中心認識型埋め込み戦略を導入する。
論文 参考訳(メタデータ) (2025-09-09T12:15:16Z) - VLA-Mark: A cross modal watermark for large vision-language alignment model [44.59029116115437]
VLA-Markは視覚対応のフレームワークで、検出可能な透かしを埋め込むと同時に、クロスモーダルコーディネートを通じて意味的忠実さを保っている。
提案手法は,局所的パッチ親和性,大域的セマンティックコヒーレンス,文脈的注意パターンを組み合わせ,マルチスケールの視覚・テクスチュアアアライメントメトリクスを統合する。
実験では、PPLが7.4%低く、BLEUが26.6%高い。
論文 参考訳(メタデータ) (2025-07-18T16:44:41Z) - Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。
ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。
本手法は,検出性と意味的整合性を同時に達成する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models [65.40460716619772]
本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。
現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。
言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。