Fugu-MT 論文翻訳(概要): A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules

論文の概要: A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules

arxiv url: http://arxiv.org/abs/2404.01245v2
Date: Wed, 28 Aug 2024 15:01:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 20:59:10.294535
Title: A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules
Title（参考訳）: 大規模言語モデルのための透かしの統計的枠組み:ピボット,検出効率,最適規則
Authors: Xiang Li, Feng Ruan, Huiyuan Wang, Qi Long, Weijie J. Su,
Abstract要約: 我々は,透かしの統計的効率と強力な検出規則を推論するための枠組みを導入する。枠組みに基づく透かしの最適検出規則を導出する。
参考スコア（独自算出の注目度）: 27.678152860666163
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Since ChatGPT was introduced in November 2022, embedding (nearly) unnoticeable statistical signals into text generated by large language models (LLMs), also known as watermarking, has been used as a principled approach to provable detection of LLM-generated text from its human-written counterpart. In this paper, we introduce a general and flexible framework for reasoning about the statistical efficiency of watermarks and designing powerful detection rules. Inspired by the hypothesis testing formulation of watermark detection, our framework starts by selecting a pivotal statistic of the text and a secret key -- provided by the LLM to the verifier -- to enable controlling the false positive rate (the error of mistakenly detecting human-written text as LLM-generated). Next, this framework allows one to evaluate the power of watermark detection rules by obtaining a closed-form expression of the asymptotic false negative rate (the error of incorrectly classifying LLM-generated text as human-written). Our framework further reduces the problem of determining the optimal detection rule to solving a minimax optimization program. We apply this framework to two representative watermarks -- one of which has been internally implemented at OpenAI -- and obtain several findings that can be instrumental in guiding the practice of implementing watermarks. In particular, we derive optimal detection rules for these watermarks under our framework. These theoretically derived detection rules are demonstrated to be competitive and sometimes enjoy a higher power than existing detection approaches through numerical experiments.
Abstract（参考訳）: 2022年11月にChatGPTが導入されて以来、大きな言語モデル(LLM)が生成するテキストに(ほぼ)無意味な統計的信号を埋め込む手法として、ウォーターマーキング(英語版)が使われてきた。本稿では,透かしの統計的効率を推論し,強力な検出ルールを設計するための汎用的で柔軟な枠組みを提案する。透かし検出の仮説テストの定式化にインスパイアされた我々のフレームワークは、LLMが検証者に提供するテキストと秘密鍵の要点を選択することで、偽陽性率(LLMが生成したテキストを誤って検出する誤り)の制御を可能にします。次に、このフレームワークは、漸近的偽陰率のクローズドフォーム式(誤ってLLM生成したテキストをヒューマンテキストとして分類する誤り)を得ることで、透かし検出ルールのパワーを評価することができる。我々のフレームワークは、最小限の最適化プログラムを解くために最適な検出ルールを決定する問題をさらに軽減する。この枠組みを2つの代表的な透かし(そのうちの1つはOpenAIで内部的に実装されている)に適用し、透かしの実装の指針となるいくつかの知見を得る。特に,これらの透かしの最適検出ルールをフレームワーク下で導出する。これらの理論的に導かれた検出規則は競争力があり、時には数値実験によって既存の検出手法よりも高いパワーを享受することが示されている。

関連論文リスト

Adaptive Testing for Segmenting Watermarked Texts From Language Models [2.5489046505746704]
大規模言語モデル(LLM)の急速な普及は、LLM生成したテキストと人間が書いたコンテンツとを区別する必要性を浮き彫りにしている。ウォーターマーク技術は、微妙な統計信号をLCM生成テキストに埋め込んで信頼性の高い識別を可能にする。我々は、この適応検出戦略を拡張し、与えられたテキストを透かしや非透かしに分割するより困難な問題に対処する。
論文参考訳（メタデータ） (2025-11-10T02:50:19Z)
Optimal Detection for Language Watermarks with Pseudorandom Collision [28.84134119819056]
階層的な2層分割によって構造を捉える統計的枠組みを導入する。その中核は最小単位の概念であり、単位間の独立として扱うことができる最小の群は、単位内部への依存を許容する。 Gumbel-maxおよび逆変換透かしの適用により、我々のフレームワークはクローズドフォーム最適規則を生成する。
論文参考訳（メタデータ） (2025-10-24T20:21:52Z)
An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。 ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文参考訳（メタデータ） (2025-09-28T19:37:44Z)
Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文参考訳（メタデータ） (2025-09-11T02:50:07Z)
In-Context Watermarks for Large Language Models [71.29952527565749]
In-Context Watermarking (ICW)は、インシデントエンジニアリングのみで生成されたテキストに透かしを埋め込む。粒度の異なる4つのICW戦略について検討した。本実験は,モデルに依存しない実用的な透かし手法としてのICWの実現可能性を検証するものである。
論文参考訳（メタデータ） (2025-05-22T17:24:51Z)
Optimized Couplings for Watermarking Large Language Models [8.585779208433465]
大規模言語モデル(LLM)は、多くの場合、人間が生成したコンテンツと区別できないようなテキストを生成することができる。本稿では,テキスト透かしをワンショットで解析する。
論文参考訳（メタデータ） (2025-05-13T18:08:12Z)
Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation [58.85645136534301]
サンプルテキストの既存の透かし方式は、テキスト品質の維持と各種攻撃に対する堅牢な検出とのトレードオフに直面していることが多い。累積透かしエントロピー閾値を導入することにより,検出性とテキスト品質を両立させる新しい透かし方式を提案する。
論文参考訳（メタデータ） (2025-04-16T14:16:38Z)
Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Ownership Verification with Reasoning [58.57194301645823]
大規模言語モデル (LLM) は、検索強化生成機構 (RAG) を通じて現実のアプリケーションに統合されつつある。これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、通常、中毒攻撃を伴う。我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文参考訳（メタデータ） (2025-02-10T09:15:56Z)
BiMarker: Enhancing Text Watermark Detection for Large Language Models with Bipolar Watermarks [19.689433249830465]
既存の透かし技術は、低い透かし強度と厳しい偽陽性要件に苦しむ。ツールは生成されたテキストを正極と負極に分割し、追加の計算リソースを必要とせずに検出を強化する。
論文参考訳（メタデータ） (2025-01-21T14:32:50Z)
GaussMark: A Practical Approach for Structural Watermarking of Language Models [61.84270985214254]
GaussMarkは、大規模な言語モデルを透かし出すためのシンプルで効率的で比較的堅牢なスキームである。 GaussMarkは信頼性が高く、効率的で、挿入、削除、置換、ラウンドトリップ翻訳などの汚職に対して比較的堅牢であることを示す。
論文参考訳（メタデータ） (2025-01-17T22:30:08Z)
Robust Detection of Watermarks for Large Language Models Under Human Edits [27.678152860666163]
そこで本研究では,人間の編集下での透かし検出のための不適切な良性テストの形で,新しい手法を提案する。我々は,Gumbel-GoF透かしのロバスト検出において,Tr-GoF試験が最適性を達成することを証明した。また, Tr-GoF試験は, 適度なテキスト修正方式において, 高い検出効率が得られることを示した。
論文参考訳（メタデータ） (2024-11-21T06:06:04Z)
Signal Watermark on Large Language Models [28.711745671275477]
本稿では,Large Language Models (LLMs) によるテキストに特定の透かしを埋め込む透かし手法を提案する。この技術は、透かしが人間に見えないことを保証するだけでなく、モデル生成テキストの品質と文法的整合性も維持する。提案手法は複数のLDMに対して実験的に検証され,高い検出精度を維持している。
論文参考訳（メタデータ） (2024-10-09T04:49:03Z)
Universally Optimal Watermarking Schemes for LLMs: from Theory to Practice [35.319577498993354]
大きな言語モデル(LLM)は人間の効率を高めるが、誤用リスクを引き起こす。本稿では,LLMの透かしのための新しい理論的枠組みを提案する。我々は,検出性能を最大化するために,透かし方式と検出器の両方を共同で最適化する。
論文参考訳（メタデータ） (2024-10-03T18:28:10Z)
WaterSeeker: Pioneering Efficient Detection of Watermarked Segments in Large Documents [65.11018806214388]
WaterSeekerは、広範囲な自然テキストの中で、ウォーターマークされたセグメントを効率的に検出し、発見するための新しいアプローチである。検出精度と計算効率のバランスが良くなる。 WaterSeekerのローカライゼーション機能は、解釈可能なAI検出システムの開発をサポートする。
論文参考訳（メタデータ） (2024-09-08T14:45:47Z)
Black-Box Detection of Language Model Watermarks [1.9374282535132377]
我々は,3つの人気のある透かしスキームファミリーのパラメータを検出し,推定するための厳密な統計試験を開発した。提案手法の有効性を,多種多様なオープンソースモデルを用いて実験的に検証した。以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であることが示唆された。
論文参考訳（メタデータ） (2024-05-28T08:41:30Z)
Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models [20.44680783275184]
モデル抽出攻撃に対する現在の透かし技術は、モデルロジットの信号挿入や生成されたテキストの後処理に依存している。大規模言語モデル(LLM)に学習可能な言語透かしを埋め込む新しい手法を提案する。制御ノイズをトークン周波数分布に導入し,統計的に識別可能な透かしを埋め込むことにより,LLMの出力分布を微調整する。
論文参考訳（メタデータ） (2024-04-28T14:45:53Z)
Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。本手法は,検出性と意味的整合性を同時に達成する。
論文参考訳（メタデータ） (2024-02-28T05:43:22Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文参考訳（メタデータ） (2023-11-16T11:58:31Z)
An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文参考訳（メタデータ） (2023-07-30T13:43:27Z)
On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。人や機械の言い回しをしても、透かしは検出可能である。また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文参考訳（メタデータ） (2023-06-07T17:58:48Z)
A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。透かしはテキストの品質に無視できない影響で埋め込むことができる。言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文参考訳（メタデータ） (2023-01-24T18:52:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。