論文の概要: Towards Optimal Statistical Watermarking
- arxiv url: http://arxiv.org/abs/2312.07930v3
- Date: Tue, 6 Feb 2024 21:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 19:20:22.341071
- Title: Towards Optimal Statistical Watermarking
- Title(参考訳): 最適統計透かしに向けて
- Authors: Baihe Huang and Hanlin Zhu and Banghua Zhu and Kannan Ramchandran and
Michael I. Jordan and Jason D. Lee and Jiantao Jiao
- Abstract要約: 仮説テスト問題として定式化して統計的透かしを研究する。
我々の定式化の鍵は、出力トークンと拒絶領域の結合である。
一般仮説テスト設定において,UMP(Uniformly Most Powerful)の透かしを特徴付ける。
- 参考スコア(独自算出の注目度): 95.46650092476372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study statistical watermarking by formulating it as a hypothesis testing
problem, a general framework which subsumes all previous statistical
watermarking methods. Key to our formulation is a coupling of the output tokens
and the rejection region, realized by pseudo-random generators in practice,
that allows non-trivial trade-offs between the Type I error and Type II error.
We characterize the Uniformly Most Powerful (UMP) watermark in the general
hypothesis testing setting and the minimax Type II error in the model-agnostic
setting. In the common scenario where the output is a sequence of $n$ tokens,
we establish nearly matching upper and lower bounds on the number of i.i.d.
tokens required to guarantee small Type I and Type II errors. Our rate of
$\Theta(h^{-1} \log (1/h))$ with respect to the average entropy per token $h$
highlights potentials for improvement from the rate of $h^{-2}$ in the previous
works. Moreover, we formulate the robust watermarking problem where the user is
allowed to perform a class of perturbations on the generated texts, and
characterize the optimal Type II error of robust UMP tests via a linear
programming problem. To the best of our knowledge, this is the first systematic
statistical treatment on the watermarking problem with near-optimal rates in
the i.i.d. setting, which might be of interest for future works.
- Abstract(参考訳): 統計的ウォーターマーキングを仮説検定問題として定式化し,従来のすべての統計ウォーターマーキング法を仮定した。
我々の定式化の鍵は出力トークンと拒否領域の結合であり、実際には擬似ランダム生成器によって実現され、I型エラーとII型エラーの非自明なトレードオフを可能にする。
一般仮説テスト設定におけるUMP(Uniformly Most Powerful)の透かしとモデル非依存設定におけるミニマックスタイプIIの誤差を特徴付ける。
出力が$n$トークンのシーケンスである一般的なシナリオでは、小さなタイプIとタイプIIのエラーを保証するために必要なi.d.トークンの数にほぼ一致する上限と下位の境界を確立する。
我々のレートは$\Theta(h^{-1} \log (1/h))$で、トークン当たりの平均エントロピーは$h$で、前作の$h^{-2}$から改善のためのポテンシャルを強調する。
さらに、ユーザが生成したテキストに対して摂動のクラスを実行することを許されるロバストな透かし問題を定式化し、線形プログラミング問題を通じてロバストなUMPテストのタイプIIエラーを特徴付ける。
我々の知る限りでは、これは、将来の研究の関心を惹きつけるであろう、近距離最適率の透かし問題に関する最初の体系的な統計処理である。
関連論文リスト
- Point Prediction for Streaming Data [27.938266762930994]
本稿では,ストリーミングデータを用いた2つの新しい点予測手法を提案する。
1つはCount-Minスケッチ(CMS)に基づいており、もう1つはランダムなバイアスを持つガウス過程の先行に基づく。
論文 参考訳(メタデータ) (2024-08-02T15:12:52Z) - Dirichlet-Based Prediction Calibration for Learning with Noisy Labels [40.78497779769083]
雑音ラベルによる学習はディープニューラルネットワーク(DNN)の一般化性能を著しく損なう
既存のアプローチでは、損失補正やサンプル選択手法によってこの問題に対処している。
そこで我々は,textitDirichlet-based Prediction (DPC) 法を解法として提案する。
論文 参考訳(メタデータ) (2024-01-13T12:33:04Z) - Improved Convergence of Score-Based Diffusion Models via Prediction-Correction [15.772322871598085]
スコアベース生成モデル(SGM)は、複雑なデータ分布からサンプリングする強力なツールである。
本稿では,一般的な予測器・相関器方式のバージョンを考慮し,この問題に対処する。
まず、不正確なランゲヴィン力学を用いて最終分布を推定し、次にその過程を逆転する。
論文 参考訳(メタデータ) (2023-05-23T15:29:09Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - DenseHybrid: Hybrid Anomaly Detection for Dense Open-set Recognition [1.278093617645299]
異常検出は、正規トレーニングデータの生成的モデリングや、負のトレーニングデータに対する識別によって行うことができる。
本稿では,大きな自然画像に対して密集した開集合認識が可能なハイブリッド異常スコアを提案する。
実験では, 標準密度異常検出ベンチマークと, オープンセット性能の新たな指標であるopen-mIoUについて評価した。
論文 参考訳(メタデータ) (2022-07-06T11:48:50Z) - A Conditional Randomization Test for Sparse Logistic Regression in
High-Dimension [36.00360315353985]
emphCRT-logitは、変数蒸留ステップとデコレーションステップを組み合わせたアルゴリズムである。
本手法の理論的解析を行い,大規模な脳画像とゲノムデータセットの実験とともにシミュレーションにおける有効性を示す。
論文 参考訳(メタデータ) (2022-05-29T09:37:16Z) - A Universal Error Measure for Input Predictions Applied to Online Graph
Problems [57.58926849872494]
本稿では,入力予測における誤差の定量化のための新しい尺度を提案する。
この尺度は、予測されていない要求と予測されていない実際の要求によるエラーをキャプチャする。
論文 参考訳(メタデータ) (2022-05-25T15:24:03Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。