論文の概要: Towards Optimal Statistical Watermarking
- arxiv url: http://arxiv.org/abs/2312.07930v1
- Date: Wed, 13 Dec 2023 06:57:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 16:21:37.084419
- Title: Towards Optimal Statistical Watermarking
- Title(参考訳): 最適統計透かしに向けて
- Authors: Baihe Huang and Banghua Zhu and Hanlin Zhu and Jason D. Lee and
Jiantao Jiao and Michael I. Jordan
- Abstract要約: 仮説テスト問題として定式化して統計的透かしを研究する。
この文脈でUMP(Uniformly Most Powerful)の透かしを特徴付ける。
これは、i.d.設定におけるほぼ最適率の透かし問題に関する最初の体系的な統計処理である。
- 参考スコア(独自算出の注目度): 97.1563423838916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study statistical watermarking by formulating it as a hypothesis testing
problem, a general framework which subsumes all previous statistical
watermarking methods. Key to our formulation is a coupling of the output tokens
and the rejection region, realized by pseudo-random generators in practice,
that allows non-trivial trade-off between the Type I error and Type II error.
We characterize the Uniformly Most Powerful (UMP) watermark in this context. In
the most common scenario where the output is a sequence of $n$ tokens, we
establish matching upper and lower bounds on the number of i.i.d. tokens
required to guarantee small Type I and Type II errors. Our rate scales as
$\Theta(h^{-1} \log (1/h))$ with respect to the average entropy per token $h$
and thus greatly improves the $O(h^{-2})$ rate in the previous works. For
scenarios where the detector lacks knowledge of the model's distribution, we
introduce the concept of model-agnostic watermarking and establish the minimax
bounds for the resultant increase in Type II error. Moreover, we formulate the
robust watermarking problem where user is allowed to perform a class of
perturbation on the generated texts, and characterize the optimal type II error
of robust UMP tests via a linear programming problem. To the best of our
knowledge, this is the first systematic statistical treatment on the
watermarking problem with near-optimal rates in the i.i.d. setting, and might
be of interest for future works.
- Abstract(参考訳): 統計的ウォーターマーキングを仮説検定問題として定式化し,従来のすべての統計ウォーターマーキング法を仮定した。
我々の定式化の鍵は出力トークンと拒否領域の結合であり、実際には擬似ランダム生成器によって実現され、I型エラーとII型エラーの非自明なトレードオフを可能にする。
この文脈でUMP(Uniformly Most Powerful)の透かしを特徴付ける。
出力が$n$トークンのシーケンスである最も一般的なシナリオでは、小さなタイプIとタイプIIのエラーを保証するために必要なi.d.トークンの数に一致する上下境界を確立する。
我々のレートは、トークン当たりの平均エントロピーに対して$\Theta(h^{-1} \log (1/h))$としてスケールし、従って以前の作品の$O(h^{-2})$レートを大幅に改善する。
検出器がモデル分布の知識を欠くシナリオでは,モデル非依存な透かしの概念を導入し,タイプiiの誤差を増加させるためのミニマックス境界を確立する。
さらに、ユーザが生成したテキストに対して摂動のクラスを実行することを許されるロバストな透かし問題を定式化し、線形プログラミング問題を通じてロバストなUMPテストの最適なタイプIIエラーを特徴付ける。
我々の知る限りでは、これはウォーターマーキング問題に関する最初の体系的な統計処理であり、すなわち、最適に近い確率で、将来の研究への関心があるかもしれない。
関連論文リスト
- Point Prediction for Streaming Data [27.938266762930994]
本稿では,ストリーミングデータを用いた2つの新しい点予測手法を提案する。
1つはCount-Minスケッチ(CMS)に基づいており、もう1つはランダムなバイアスを持つガウス過程の先行に基づく。
論文 参考訳(メタデータ) (2024-08-02T15:12:52Z) - Dirichlet-Based Prediction Calibration for Learning with Noisy Labels [40.78497779769083]
雑音ラベルによる学習はディープニューラルネットワーク(DNN)の一般化性能を著しく損なう
既存のアプローチでは、損失補正やサンプル選択手法によってこの問題に対処している。
そこで我々は,textitDirichlet-based Prediction (DPC) 法を解法として提案する。
論文 参考訳(メタデータ) (2024-01-13T12:33:04Z) - Improved Convergence of Score-Based Diffusion Models via Prediction-Correction [15.772322871598085]
スコアベース生成モデル(SGM)は、複雑なデータ分布からサンプリングする強力なツールである。
本稿では,一般的な予測器・相関器方式のバージョンを考慮し,この問題に対処する。
まず、不正確なランゲヴィン力学を用いて最終分布を推定し、次にその過程を逆転する。
論文 参考訳(メタデータ) (2023-05-23T15:29:09Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - DenseHybrid: Hybrid Anomaly Detection for Dense Open-set Recognition [1.278093617645299]
異常検出は、正規トレーニングデータの生成的モデリングや、負のトレーニングデータに対する識別によって行うことができる。
本稿では,大きな自然画像に対して密集した開集合認識が可能なハイブリッド異常スコアを提案する。
実験では, 標準密度異常検出ベンチマークと, オープンセット性能の新たな指標であるopen-mIoUについて評価した。
論文 参考訳(メタデータ) (2022-07-06T11:48:50Z) - A Conditional Randomization Test for Sparse Logistic Regression in
High-Dimension [36.00360315353985]
emphCRT-logitは、変数蒸留ステップとデコレーションステップを組み合わせたアルゴリズムである。
本手法の理論的解析を行い,大規模な脳画像とゲノムデータセットの実験とともにシミュレーションにおける有効性を示す。
論文 参考訳(メタデータ) (2022-05-29T09:37:16Z) - A Universal Error Measure for Input Predictions Applied to Online Graph
Problems [57.58926849872494]
本稿では,入力予測における誤差の定量化のための新しい尺度を提案する。
この尺度は、予測されていない要求と予測されていない実際の要求によるエラーをキャプチャする。
論文 参考訳(メタデータ) (2022-05-25T15:24:03Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。