論文の概要: VLA-Mark: A cross modal watermark for large vision-language alignment model
- arxiv url: http://arxiv.org/abs/2507.14067v2
- Date: Fri, 19 Sep 2025 06:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 14:11:07.151347
- Title: VLA-Mark: A cross modal watermark for large vision-language alignment model
- Title(参考訳): VLA-Mark:大規模視覚言語アライメントモデルのためのクロスモーダル透かし
- Authors: Shuliang Liu, Qi Zheng, Jesse Jiaxi Xu, Yibo Yan, Junyan Zhang, He Geng, Aiwei Liu, Peijie Jiang, Jia Liu, Yik-Cheung Tam, Xuming Hu,
- Abstract要約: VLA-Markは視覚対応のフレームワークで、検出可能な透かしを埋め込むと同時に、クロスモーダルコーディネートを通じて意味的忠実さを保っている。
提案手法は,局所的パッチ親和性,大域的セマンティックコヒーレンス,文脈的注意パターンを組み合わせ,マルチスケールの視覚・テクスチュアアアライメントメトリクスを統合する。
実験では、PPLが7.4%低く、BLEUが26.6%高い。
- 参考スコア(独自算出の注目度): 44.59029116115437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models demand watermarking solutions that protect intellectual property without compromising multimodal coherence. Existing text watermarking methods disrupt visual-textual alignment through biased token selection and static strategies, leaving semantic-critical concepts vulnerable. We propose VLA-Mark, a vision-aligned framework that embeds detectable watermarks while preserving semantic fidelity through cross-modal coordination. Our approach integrates multiscale visual-textual alignment metrics, combining localized patch affinity, global semantic coherence, and contextual attention patterns, to guide watermark injection without model retraining. An entropy-sensitive mechanism dynamically balances watermark strength and semantic preservation, prioritizing visual grounding during low-uncertainty generation phases. Experiments show 7.4% lower PPL and 26.6% higher BLEU than conventional methods, with near-perfect detection (98.8% AUC). The framework demonstrates 96.1\% attack resilience against attacks such as paraphrasing and synonym substitution, while maintaining text-visual consistency, establishing new standards for quality-preserving multimodal watermarking
- Abstract(参考訳): 視覚言語モデルは、マルチモーダルコヒーレンスを妥協することなく知的財産を保護する透かしソリューションを要求する。
既存のテキスト透かし手法は、バイアス付きトークンの選択と静的戦略によって視覚的テキストアライメントを阻害し、セマンティッククリティカルな概念を脆弱にしておく。
VLA-Markは,検出可能な透かしを埋め込むとともに,モーダル間協調による意味的忠実さを保ちながら,視覚に適応したフレームワークである。
提案手法は,局所的パッチ親和性,大域的セマンティックコヒーレンス,文脈的注意パターンを組み合わせたマルチスケールな視覚・テクスチュアアアライメントメトリクスを統合し,モデル再構成なしに透かし注入を誘導する。
エントロピーに敏感なメカニズムは、透かしの強さとセマンティックな保存を動的にバランスさせ、低不確実な生成フェーズにおける視覚的接地を優先する。
実験では、PPLが7.4%低く、BLEUが26.6%高く、ほぼ完全な検出(98.8% AUC)がなされている。
フレームワークは、パラフレージングや同義語置換のような攻撃に対する96.1\%の攻撃レジリエンスを示しながら、テキスト-視覚的一貫性を維持し、品質保存マルチモーダル透かしの新しい標準を確立している。
関連論文リスト
- AGMark: Attention-Guided Dynamic Watermarking for Large Vision-Language Models [28.393476667026523]
視覚に依存しない透かしは、視覚的に無関係なトークンを導入し、視覚的な接地を妨害する。
我々は注意誘導動的透かし (AGMark) を提案する。
AGMarkは、視覚的忠実さを厳密に保ちながら検出可能な信号を埋め込む。
論文 参考訳(メタデータ) (2026-02-10T10:02:29Z) - WMVLM: Evaluating Diffusion Model Image Watermarking via Vision-Language Models [79.32764976020435]
拡散モデルから生成された画像を保護するためには,デジタル透かしが不可欠である。
従来の透かし評価手法では,残余と意味の両方の透かしの統一的な枠組みが欠如していた。
我々は,視覚言語モデルを用いた拡散モデル画像透かしのための最初の統一的・解釈可能な評価フレームワークLMを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:14:32Z) - A Visual Semantic Adaptive Watermark grounded by Prefix-Tuning for Large Vision-Language Model [48.79816664229285]
Visual Semantic Adaptive Watermark (VISA-Mark)は、視覚の忠実さを厳密に保ちながら検出可能な信号を埋め込む新しいフレームワークである。
提案手法では,動的ビジュアルエビデンス重みを抽出するために,軽量で効率的に訓練されたプレフィックスチューナーを用いる。
実験の結果、VISA-Markは視覚的一貫性が7.8%向上した従来の手法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2026-01-12T07:55:13Z) - From Essence to Defense: Adaptive Semantic-aware Watermarking for Embedding-as-a-Service Copyright Protection [24.55335024940469]
Embeddings-as-a-Service (E)は、Webプラットフォームにおける商業パラダイムとして成功している。
以前の研究では、Eは模倣攻撃に弱いことが判明している。
著作権保護のための意味に基づく新しい透かしパラダイムであるSemMarkを提案する。
論文 参考訳(メタデータ) (2025-12-18T11:50:38Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - StableGuard: Towards Unified Copyright Protection and Tamper Localization in Latent Diffusion Models [55.05404953041403]
拡散生成プロセスにバイナリ透かしをシームレスに統合する新しいフレームワークを提案する。
画像の忠実さ、透かしの検証、ローカライゼーションの改ざんにおいて、StableGuardは一貫して最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T16:35:19Z) - OptMark: Robust Multi-bit Diffusion Watermarking via Inference Time Optimization [66.69924980864053]
拡散復調過程の中間潜水器に頑健なマルチビット透かしを埋め込む最適化手法である OptMark を提案する。
OptMarkは、生成攻撃に対して早期に構造的な透かしを挿入し、画像変換に耐えるために遅れて詳細な透かしを挿入する。
実験結果から,OptMarkは有意変換,幾何変換,編集,再生攻撃に対する堅牢なレジリエンスを確保しつつ,目に見えないマルチビット透かしを実現することが示された。
論文 参考訳(メタデータ) (2025-08-29T15:50:59Z) - IConMark: Robust Interpretable Concept-Based Watermark For AI Images [50.045011844765185]
我々は,新しい世代のロバストなセマンティックな透かし法であるIConMarkを提案する。
IConMarkは、解釈可能な概念をAI生成イメージに組み込み、敵の操作に耐性を持たせる。
我々は、検出精度と画質の維持の観点から、その優位性を実証する。
論文 参考訳(メタデータ) (2025-07-17T05:38:30Z) - BiMark: Unbiased Multilayer Watermarking for Large Language Models [54.58546293741373]
テキスト品質とメッセージ埋め込み能力のバランスをとる新しい透かしフレームワークであるBiMarkを提案する。
BiMarkは、短いテキストに対して最大30%高い抽出率を達成すると同時に、低いパープレキシティで示されるテキスト品質を維持する。
論文 参考訳(メタデータ) (2025-06-19T11:08:59Z) - Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation [58.85645136534301]
サンプルテキストの既存の透かし方式は、テキスト品質の維持と各種攻撃に対する堅牢な検出とのトレードオフに直面していることが多い。
累積透かしエントロピー閾値を導入することにより,検出性とテキスト品質を両立させる新しい透かし方式を提案する。
論文 参考訳(メタデータ) (2025-04-16T14:16:38Z) - Safe-VAR: Safe Visual Autoregressive Model for Text-to-Image Generative Watermarking [18.251123923955397]
自己回帰学習はテキストと画像の生成において支配的なアプローチとなり、高い効率と視覚的品質を提供する。
拡散モデルのために設計された既存の透かし法は、しばしばVARモデルのシーケンシャルな性質に適応するのに苦労する。
自動回帰テキスト・画像生成に特化して設計された最初のウォーターマーキングフレームワークであるSafe-VARを提案する。
論文 参考訳(メタデータ) (2025-03-14T11:45:10Z) - Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach [35.319577498993354]
大規模言語モデル(LLM)の透かしのための新しい理論的枠組みを提案する。
本手法は,最悪のType-Iエラーとテキスト歪みの制御を維持しつつ,検出性能の最大化に重点を置いている。
本稿では,Gumbel-max の手法と並行してサロゲートモデルを用いた,効率的かつモデルに依存しない分布適応型透かしアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-03T18:28:10Z) - Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。
ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。
本手法は,検出性と意味的整合性を同時に達成する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - Adaptive Text Watermark for Large Language Models [8.100123266517299]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - RAW: A Robust and Agile Plug-and-Play Watermark Framework for AI-Generated Images with Provable Guarantees [33.61946642460661]
本稿ではRAWと呼ばれる堅牢でアジャイルな透かし検出フレームワークを紹介する。
我々は、透かしの存在を検出するために、透かしと共同で訓練された分類器を用いる。
このフレームワークは,透かし画像の誤分類に対する偽陽性率に関する証明可能な保証を提供する。
論文 参考訳(メタデータ) (2024-01-23T22:00:49Z) - Cross-Attention Watermarking of Large Language Models [8.704964543257246]
言語モデルの言語透かしに対する新しいアプローチを示す。
情報は、読みやすさと本来の意味を保ちながら、出力テキストに不可避的に挿入される。
クロスアテンションメカニズムは、推論中にテキストに透かしを埋め込むのに使われる。
論文 参考訳(メタデータ) (2024-01-12T09:39:50Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models [65.40460716619772]
本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。
現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。
言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z) - T2IW: Joint Text to Image & Watermark Generation [74.20148555503127]
画像と透かし(T2IW)への共同テキスト生成のための新しいタスクを提案する。
このT2IWスキームは、意味的特徴と透かし信号が画素内で互換性を持つように強制することにより、複合画像を生成する際に、画像品質に最小限のダメージを与える。
提案手法により,画像品質,透かしの可視性,透かしの堅牢性などの顕著な成果が得られた。
論文 参考訳(メタデータ) (2023-09-07T16:12:06Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。