論文の概要: Watermarking Degrades Alignment in Language Models: Analysis and Mitigation
- arxiv url: http://arxiv.org/abs/2506.04462v3
- Date: Sat, 12 Jul 2025 16:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 12:29:47.5394
- Title: Watermarking Degrades Alignment in Language Models: Analysis and Mitigation
- Title(参考訳): ウォーターマーキングは言語モデルにおけるアライメントを低下させる:分析と緩和
- Authors: Apurv Verma, NhatHai Phan, Shubhendu Trivedi,
- Abstract要約: 本稿では,Gumbel と KGW の2つの一般的な透かし手法が真理性,安全性,有用性にどのように影響するかを体系的に分析する。
本稿では,外部報酬モデルを用いてアライメントを復元する推論時間サンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 8.866121740748447
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Watermarking techniques for large language models (LLMs) can significantly impact output quality, yet their effects on truthfulness, safety, and helpfulness remain critically underexamined. This paper presents a systematic analysis of how two popular watermarking approaches-Gumbel and KGW-affect these core alignment properties across four aligned LLMs. Our experiments reveal two distinct degradation patterns: guard attenuation, where enhanced helpfulness undermines model safety, and guard amplification, where excessive caution reduces model helpfulness. These patterns emerge from watermark-induced shifts in token distribution, surfacing the fundamental tension that exists between alignment objectives. To mitigate these degradations, we propose Alignment Resampling (AR), an inference-time sampling method that uses an external reward model to restore alignment. We establish a theoretical lower bound on the improvement in expected reward score as the sample size is increased and empirically demonstrate that sampling just 2-4 watermarked generations effectively recovers or surpasses baseline (unwatermarked) alignment scores. To overcome the limited response diversity of standard Gumbel watermarking, our modified implementation sacrifices strict distortion-freeness while maintaining robust detectability, ensuring compatibility with AR. Experimental results confirm that AR successfully recovers baseline alignment in both watermarking approaches, while maintaining strong watermark detectability. This work reveals the critical balance between watermark strength and model alignment, providing a simple inference-time solution to responsibly deploy watermarked LLMs in practice.
- Abstract(参考訳): 大規模言語モデル(LLM)の透かし技術は、出力品質に大きな影響を及ぼすが、真理性、安全性、有用性に対する影響は極めて過小評価されている。
本稿では,4つのLLMのコアアライメント特性に,Gumbel と KGW の2つの一般的な透かしアプローチがどう影響するかを系統的に解析する。
モデル安全性を損なう「ガード減衰」と、過剰な注意がモデル有用性を低下させる「ガード増幅」という2つの異なる劣化パターンを実験により明らかにした。
これらのパターンは、透かしによって引き起こされるトークン分布の変化から生まれ、アライメント目的の間に存在する基本的な緊張を克服する。
これらの劣化を緩和するために、外部報酬モデルを用いてアライメントを復元する推論時間サンプリング法であるアライメント・リサンプリング(AR)を提案する。
サンプルサイズが大きくなるにつれて期待される報奨得点の改善に理論的な下限を定め,2-4世代のみのサンプリングがベースライン(非透かし)のアライメントスコアを効果的に回復または超えることを実証的に実証した。
標準的なガムベル透かしの限られた応答多様性を克服するため、改良された実装では、堅牢な検出性を保ちながら厳密な歪みのないことを犠牲にし、ARとの互換性を確保する。
実験の結果,強い透かし検出性を保ちながら,両方の透かしアプローチにおけるベースラインアライメントの回復に成功した。
この研究は、透かし強度とモデルアライメントの致命的なバランスを明らかにし、実際に透かし付きLCMをデプロイするための単純な推論時間ソリューションを提供する。
関連論文リスト
- WaterVIB: Learning Minimal Sufficient Watermark Representations via Variational Information Bottleneck [54.83612291453286]
既存の方法は、原点を高周波カバーテクスチャで絡み合わせるため失敗するが、これは生成的浄化の際に書き換えられる可能性がある。
本研究では,変分情報ボトルネックを介してエンコーダを情報シーブとして再構成するフレームワークであるWaterVIBを提案する。
これにより、余分なカバーニュアンスを生成的シフトに傾向し、再生に不変な信号のみを保持することができる。
論文 参考訳(メタデータ) (2026-02-25T02:38:17Z) - More Haste, Less Speed: Weaker Single-Layer Watermark Improves Distortion-Free Watermark Ensembles [58.941305935872265]
強い透かしがトークン分布のエントロピーを著しく減少させることを示す。
本稿では,より弱い単一層透かしを用いて,効率的なマルチ層アンサンブルに必要なエントロピーを保存するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T10:18:16Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - StableGuard: Towards Unified Copyright Protection and Tamper Localization in Latent Diffusion Models [55.05404953041403]
拡散生成プロセスにバイナリ透かしをシームレスに統合する新しいフレームワークを提案する。
画像の忠実さ、透かしの検証、ローカライゼーションの改ざんにおいて、StableGuardは一貫して最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T16:35:19Z) - Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - Semantic Watermarking Reinvented: Enhancing Robustness and Generation Quality with Fourier Integrity [31.666430190864947]
我々はHermitian Symmetric Fourier Watermarking (SFW)と呼ばれる新しい埋め込み手法を提案する。
SFWはエルミート対称性を強制することによって周波数整合性を維持する。
我々は,収穫攻撃による意味的透かしの脆弱性を低減する中心認識型埋め込み戦略を導入する。
論文 参考訳(メタデータ) (2025-09-09T12:15:16Z) - TAG-WM: Tamper-Aware Generative Image Watermarking via Diffusion Inversion Sensitivity [68.95168727940973]
Tamper-Aware Generative Image WaterMarking(TAG-WM)。
本稿では,TAG-WMと命名されたタンパ認識画像ウォーターマーキング手法を提案する。
論文 参考訳(メタデータ) (2025-06-30T03:14:07Z) - Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models [52.877452505561706]
データセットのオーナシップ検証(DOV)を損なうよう特別に設計された最初の著作権回避攻撃を提案する。
CEAT2Iは, 試料検出, トリガー同定, 効率的な透かし除去の3段階からなる。
実験の結果,CEAT2I はモデル性能を保ちながら DOV 機構を効果的に回避できることがわかった。
論文 参考訳(メタデータ) (2025-05-05T17:51:55Z) - Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation [58.85645136534301]
サンプルテキストの既存の透かし方式は、テキスト品質の維持と各種攻撃に対する堅牢な検出とのトレードオフに直面していることが多い。
累積透かしエントロピー閾値を導入することにより,検出性とテキスト品質を両立させる新しい透かし方式を提案する。
論文 参考訳(メタデータ) (2025-04-16T14:16:38Z) - Detection Limits and Statistical Separability of Tree Ring Watermarks in Rectified Flow-based Text-to-Image Generation Models [0.0]
ツリーリング透かしはAI生成画像の認証において重要な技術である。
SD 2.1 と FLUX.1-dev モデルによる透かしの検出と分離性の評価と比較を行った。
論文 参考訳(メタデータ) (2025-04-04T18:24:23Z) - Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach [35.319577498993354]
大規模言語モデル(LLM)の透かしのための新しい理論的枠組みを提案する。
本手法は,最悪のType-Iエラーとテキスト歪みの制御を維持しつつ,検出性能の最大化に重点を置いている。
本稿では,Gumbel-max の手法と並行してサロゲートモデルを用いた,効率的かつモデルに依存しない分布適応型透かしアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-03T18:28:10Z) - Watermarking Recommender Systems [52.207721219147814]
本稿では,レコメンダシステムに特化した新しい手法であるAutoregressive Out-of-Distribution Watermarking (AOW)を紹介する。
提案手法では,初期項目の選択とオラクルモデルによるクエリを行い,その後に予測スコアの小さい項目を選択する。
透かしの有効性を評価するため、このモデルでは、切り捨てられた透かしシーケンスが与えられた後続の項目を予測することを課題とする。
論文 参考訳(メタデータ) (2024-07-17T06:51:24Z) - Watermarking Low-entropy Generation for Large Language Models: An Unbiased and Low-risk Method [6.505831742654826]
STA-1は、予想された元のトークン分布を保存する不偏の透かしである。
低エントロピーおよび高エントロピーデータセットの実験結果は、STA-1が上記の特性を同時に達成できることを証明している。
論文 参考訳(メタデータ) (2024-05-23T14:17:29Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Reliable Model Watermarking: Defending Against Theft without Compromising on Evasion [15.086451828825398]
回避敵は、ウォーターマークサンプルを記憶したモデルによって生成されるショートカットを、容易に利用することができる。
モデルを学習してそれらを正確に認識することで、ユニークな透かし行動が知識注入によって促進される。
論文 参考訳(メタデータ) (2024-04-21T03:38:20Z) - Wide Flat Minimum Watermarking for Robust Ownership Verification of GANs [23.639074918667625]
ホワイトボックス攻撃に対するロバスト性を向上したGANのための新しいマルチビット・ボックスフリー透かし手法を提案する。
透かしは、GANトレーニング中に余分な透かし損失項を追加することで埋め込む。
その結果,透かしの存在が画像の品質に与える影響は無視できることがわかった。
論文 参考訳(メタデータ) (2023-10-25T18:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。