論文の概要: Watermarking Degrades Alignment in Language Models: Analysis and Mitigation
- arxiv url: http://arxiv.org/abs/2506.04462v1
- Date: Wed, 04 Jun 2025 21:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.43252
- Title: Watermarking Degrades Alignment in Language Models: Analysis and Mitigation
- Title(参考訳): ウォーターマーキングは言語モデルにおけるアライメントを低下させる:分析と緩和
- Authors: Apurv Verma, NhatHai Phan, Shubhendu Trivedi,
- Abstract要約: 本稿では,Gumbel と KGW の2つの一般的な透かし手法が真理性,安全性,有用性にどのように影響するかを体系的に分析する。
本稿では,外部報酬モデルを用いてアライメントを復元する推論時間サンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 8.866121740748447
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Watermarking techniques for large language models (LLMs) can significantly impact output quality, yet their effects on truthfulness, safety, and helpfulness remain critically underexamined. This paper presents a systematic analysis of how two popular watermarking approaches-Gumbel and KGW-affect these core alignment properties across four aligned LLMs. Our experiments reveal two distinct degradation patterns: guard attenuation, where enhanced helpfulness undermines model safety, and guard amplification, where excessive caution reduces model helpfulness. These patterns emerge from watermark-induced shifts in token distribution, surfacing the fundamental tension that exists between alignment objectives. To mitigate these degradations, we propose Alignment Resampling (AR), an inference-time sampling method that uses an external reward model to restore alignment. We establish a theoretical lower bound on the improvement in expected reward score as the sample size is increased and empirically demonstrate that sampling just 2-4 watermarked generations effectively recovers or surpasses baseline (unwatermarked) alignment scores. To overcome the limited response diversity of standard Gumbel watermarking, our modified implementation sacrifices strict distortion-freeness while maintaining robust detectability, ensuring compatibility with AR. Experimental results confirm that AR successfully recovers baseline alignment in both watermarking approaches, while maintaining strong watermark detectability. This work reveals the critical balance between watermark strength and model alignment, providing a simple inference-time solution to responsibly deploy watermarked LLMs in practice.
- Abstract(参考訳): 大規模言語モデル(LLM)の透かし技術は、出力品質に大きな影響を及ぼすが、真理性、安全性、有用性に対する影響は極めて過小評価されている。
本稿では,4つのLLMのコアアライメント特性に,Gumbel と KGW の2つの一般的な透かしアプローチがどう影響するかを系統的に解析する。
モデル安全性を損なう「ガード減衰」と、過剰な注意がモデル有用性を低下させる「ガード増幅」という2つの異なる劣化パターンを実験により明らかにした。
これらのパターンは、透かしによって引き起こされるトークン分布の変化から生まれ、アライメント目的の間に存在する基本的な緊張を克服する。
これらの劣化を緩和するために、外部報酬モデルを用いてアライメントを復元する推論時間サンプリング法であるアライメント・リサンプリング(AR)を提案する。
サンプルサイズが大きくなるにつれて期待される報奨得点の改善に理論的な下限を定め,2-4世代のみのサンプリングがベースライン(非透かし)のアライメントスコアを効果的に回復または超えることを実証的に実証した。
標準的なガムベル透かしの限られた応答多様性を克服するため、改良された実装では、堅牢な検出性を保ちながら厳密な歪みのないことを犠牲にし、ARとの互換性を確保する。
実験の結果,強い透かし検出性を保ちながら,両方の透かしアプローチにおけるベースラインアライメントの回復に成功した。
この研究は、透かし強度とモデルアライメントの致命的なバランスを明らかにし、実際に透かし付きLCMをデプロイするための単純な推論時間ソリューションを提供する。
関連論文リスト
- Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models [52.877452505561706]
データセットのオーナシップ検証(DOV)を損なうよう特別に設計された最初の著作権回避攻撃を提案する。
CEAT2Iは, 試料検出, トリガー同定, 効率的な透かし除去の3段階からなる。
実験の結果,CEAT2I はモデル性能を保ちながら DOV 機構を効果的に回避できることがわかった。
論文 参考訳(メタデータ) (2025-05-05T17:51:55Z) - Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation [58.85645136534301]
サンプルテキストの既存の透かし方式は、テキスト品質の維持と各種攻撃に対する堅牢な検出とのトレードオフに直面していることが多い。
累積透かしエントロピー閾値を導入することにより,検出性とテキスト品質を両立させる新しい透かし方式を提案する。
論文 参考訳(メタデータ) (2025-04-16T14:16:38Z) - Detection Limits and Statistical Separability of Tree Ring Watermarks in Rectified Flow-based Text-to-Image Generation Models [0.0]
ツリーリング透かしはAI生成画像の認証において重要な技術である。
SD 2.1 と FLUX.1-dev モデルによる透かしの検出と分離性の評価と比較を行った。
論文 参考訳(メタデータ) (2025-04-04T18:24:23Z) - Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach [35.319577498993354]
大規模言語モデル(LLM)の透かしのための新しい理論的枠組みを提案する。
本手法は,最悪のType-Iエラーとテキスト歪みの制御を維持しつつ,検出性能の最大化に重点を置いている。
本稿では,Gumbel-max の手法と並行してサロゲートモデルを用いた,効率的かつモデルに依存しない分布適応型透かしアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-03T18:28:10Z) - Watermarking Recommender Systems [52.207721219147814]
本稿では,レコメンダシステムに特化した新しい手法であるAutoregressive Out-of-Distribution Watermarking (AOW)を紹介する。
提案手法では,初期項目の選択とオラクルモデルによるクエリを行い,その後に予測スコアの小さい項目を選択する。
透かしの有効性を評価するため、このモデルでは、切り捨てられた透かしシーケンスが与えられた後続の項目を予測することを課題とする。
論文 参考訳(メタデータ) (2024-07-17T06:51:24Z) - Watermarking Low-entropy Generation for Large Language Models: An Unbiased and Low-risk Method [6.505831742654826]
STA-1は、予想された元のトークン分布を保存する不偏の透かしである。
低エントロピーおよび高エントロピーデータセットの実験結果は、STA-1が上記の特性を同時に達成できることを証明している。
論文 参考訳(メタデータ) (2024-05-23T14:17:29Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Reliable Model Watermarking: Defending Against Theft without Compromising on Evasion [15.086451828825398]
回避敵は、ウォーターマークサンプルを記憶したモデルによって生成されるショートカットを、容易に利用することができる。
モデルを学習してそれらを正確に認識することで、ユニークな透かし行動が知識注入によって促進される。
論文 参考訳(メタデータ) (2024-04-21T03:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。