Fugu-MT 論文翻訳(概要): Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach

論文の概要: Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach

arxiv url: http://arxiv.org/abs/2410.02890v4
Date: Wed, 19 Feb 2025 18:18:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 15:43:05.505457
Title: Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach
Title（参考訳）: LLMウォーターマーキングのための理論的基礎的枠組み:分布適応的アプローチ
Authors: Haiyun He, Yepeng Liu, Ziqiao Wang, Yongyi Mao, Yuheng Bu,
Abstract要約: 大規模言語モデル(LLM)の透かしのための新しい理論的枠組みを提案する。本手法は,最悪のType-Iエラーとテキスト歪みの制御を維持しつつ,検出性能の最大化に重点を置いている。本稿では,Gumbel-max の手法と並行してサロゲートモデルを用いた,効率的かつモデルに依存しない分布適応型透かしアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 35.319577498993354
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Watermarking has emerged as a crucial method to distinguish AI-generated text from human-created text. In this paper, we present a novel theoretical framework for watermarking Large Language Models (LLMs) that jointly optimizes both the watermarking scheme and the detection process. Our approach focuses on maximizing detection performance while maintaining control over the worst-case Type-I error and text distortion. We characterize \emph{the universally minimum Type-II error}, showing a fundamental trade-off between watermark detectability and text distortion. Importantly, we identify that the optimal watermarking schemes are adaptive to the LLM generative distribution. Building on our theoretical insights, we propose an efficient, model-agnostic, distribution-adaptive watermarking algorithm, utilizing a surrogate model alongside the Gumbel-max trick. Experiments conducted on Llama2-13B and Mistral-8$\times$7B models confirm the effectiveness of our approach. Additionally, we examine incorporating robustness into our framework, paving a way to future watermarking systems that withstand adversarial attacks more effectively.
Abstract（参考訳）: ウォーターマーキングは、AIが生成したテキストと人間の作成したテキストを区別する重要な方法として登場した。本稿では,透かし方式と検出過程の両面を協調的に最適化する大規模言語モデル(LLM)に関する新しい理論的枠組みを提案する。本手法は,最悪のType-Iエラーとテキスト歪みの制御を維持しつつ,検出性能の最大化に重点を置いている。 We characterizedize \emph{the universally minimum Type-II error, showed a fundamental trade-off between watermark detectability and text distortion。重要なことは、最適透かし方式がLLM生成分布に適応していることである。理論的な知見に基づいて,Gumbel-max トリックと並行して代理モデルを用いた,効率的かつモデルに依存しない分布適応型透かしアルゴリズムを提案する。 Llama2-13BとMistral-8$\times$7Bで行った実験により,本手法の有効性が確認された。さらに,我々の枠組みにロバスト性を導入し,敵の攻撃に耐える将来の透かしシステムへの道を開いた。

関連論文リスト

Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation [58.85645136534301]
サンプルテキストの既存の透かし方式は、テキスト品質の維持と各種攻撃に対する堅牢な検出とのトレードオフに直面していることが多い。累積透かしエントロピー閾値を導入することにより,検出性とテキスト品質を両立させる新しい透かし方式を提案する。
論文参考訳（メタデータ） (2025-04-16T14:16:38Z)
Can you Finetune your Binoculars? Embedding Text Watermarks into the Weights of Large Language Models [33.051248579713736]
人間のテキストからAIが生成したコンテンツの識別不可能は、透明性と説明責任の課題を提起する。本稿では,テキスト生成モデルとして機能し,また検出器として機能する,モデルの低ランクアダプタのペアを微調整する戦略を提案する。このように、透かし戦略はエンドツーエンドで完全に学習される。
論文参考訳（メタデータ） (2025-04-08T21:34:02Z)
GaussMark: A Practical Approach for Structural Watermarking of Language Models [61.84270985214254]
GaussMarkは、大規模な言語モデルを透かし出すためのシンプルで効率的で比較的堅牢なスキームである。 GaussMarkは信頼性が高く、効率的で、挿入、削除、置換、ラウンドトリップ翻訳などの汚職に対して比較的堅牢であることを示す。
論文参考訳（メタデータ） (2025-01-17T22:30:08Z)
Robust Detection of Watermarks for Large Language Models Under Human Edits [27.678152860666163]
そこで本研究では,人間の編集下での透かし検出のための不適切な良性テストの形で,新しい手法を提案する。我々は,Gumbel-GoF透かしのロバスト検出において,Tr-GoF試験が最適性を達成することを証明した。また, Tr-GoF試験は, 適度なテキスト修正方式において, 高い検出効率が得られることを示した。
論文参考訳（メタデータ） (2024-11-21T06:06:04Z)
Embedding Watermarks in Diffusion Process for Model Intellectual Property Protection [16.36712147596369]
拡散過程全体に透かしを埋め込むことにより,新しい透かしの枠組みを導入する。詳細な理論的解析と実験的検証により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-10-29T18:27:10Z)
WaterSeeker: Pioneering Efficient Detection of Watermarked Segments in Large Documents [63.563031923075066]
WaterSeekerは、広範囲な自然テキストの中で、ウォーターマークされたセグメントを効率的に検出し、発見するための新しいアプローチである。検出精度と計算効率のバランスが良くなる。
論文参考訳（メタデータ） (2024-09-08T14:45:47Z)
Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models [20.44680783275184]
モデル抽出攻撃に対する現在の透かし技術は、モデルロジットの信号挿入や生成されたテキストの後処理に依存している。大規模言語モデル(LLM)に学習可能な言語透かしを埋め込む新しい手法を提案する。制御ノイズをトークン周波数分布に導入し,統計的に識別可能な透かしを埋め込むことにより,LLMの出力分布を微調整する。
論文参考訳（メタデータ） (2024-04-28T14:45:53Z)
A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules [27.678152860666163]
我々は,透かしの統計的効率と強力な検出規則を推論するための枠組みを導入する。枠組みに基づく透かしの最適検出規則を導出する。
論文参考訳（メタデータ） (2024-04-01T17:03:41Z)
Towards Better Statistical Understanding of Watermarking LLMs [7.68488211412916]
本稿では,大規模言語モデル(LLM)の透かし問題について検討する。モデル歪みと検出能力のトレードオフと,Kirchenbauer et alのグリーンレッドリストに基づく制約付き最適化問題とみなす。本稿では,この最適化定式化を考慮したオンライン二重勾配上昇透かしアルゴリズムを開発し,モデル歪みと検出能力の最適性を示す。
論文参考訳（メタデータ） (2024-03-19T01:57:09Z)
Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。 Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文参考訳（メタデータ） (2024-03-12T16:25:38Z)
TokenMark: A Modality-Agnostic Watermark for Pre-trained Transformers [67.57928750537185]
TokenMarkは、事前訓練されたモデルに対する頑健で、モダリティに依存しない、堅牢な透かしシステムである。予めトレーニングされたモデルを、特別に置換されたデータサンプルのセットに微調整することで、透かしを埋め込む。これはモデル透かしの堅牢性、効率、普遍性を著しく改善する。
論文参考訳（メタデータ） (2024-03-09T08:54:52Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文参考訳（メタデータ） (2023-11-16T11:58:31Z)
An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文参考訳（メタデータ） (2023-07-30T13:43:27Z)
Provable Robust Watermarking for AI-Generated Text [41.5510809722375]
We propose a robust and high-quality watermark method, Unigram-Watermark。提案手法は,テキストの編集やパラフレージングに頑健で,生成品質,透かし検出の精度が保証されていることを実証する。
論文参考訳（メタデータ） (2023-06-30T07:24:32Z)
Reversible Quantization Index Modulation for Static Deep Neural Network Watermarking [57.96787187733302]
可逆的データ隠蔽法(RDH)は潜在的な解決策を提供するが、既存のアプローチはユーザビリティ、キャパシティ、忠実性の面で弱点に悩まされている。量子化指数変調(QIM)を用いたRDHに基づく静的DNN透かし手法を提案する。提案手法は,透かし埋め込みのための1次元量化器に基づく新しい手法を取り入れたものである。
論文参考訳（メタデータ） (2023-05-29T04:39:17Z)
Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文参考訳（メタデータ） (2021-08-05T04:27:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。