論文の概要: Clustering and Median Aggregation Improve Differentially Private Inference
- arxiv url: http://arxiv.org/abs/2506.04566v1
- Date: Thu, 05 Jun 2025 02:34:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.493977
- Title: Clustering and Median Aggregation Improve Differentially Private Inference
- Title(参考訳): クラスタリングとメディアアグリゲーションは個人差分推論を改善する
- Authors: Kareem Amin, Salman Avestimehr, Sara Babakniya, Alex Bie, Weiwei Kong, Natalia Ponomareva, Umar Syed,
- Abstract要約: Differentially Private(DP)言語モデル推論は、プライベートな合成テキストを生成するアプローチである。
均一サンプリングは、プライベートテキストの品質を劣化させることを示す。
我々は,平均ではなく中央値のプライベートな計算によって,次のトークン統計を集約するアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 19.7873954143387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentially private (DP) language model inference is an approach for generating private synthetic text. A sensitive input example is used to prompt an off-the-shelf large language model (LLM) to produce a similar example. Multiple examples can be aggregated together to formally satisfy the DP guarantee. Prior work creates inference batches by sampling sensitive inputs uniformly at random. We show that uniform sampling degrades the quality of privately generated text, especially when the sensitive examples concern heterogeneous topics. We remedy this problem by clustering the input data before selecting inference batches. Next, we observe that clustering also leads to more similar next-token predictions across inferences. We use this insight to introduce a new algorithm that aggregates next token statistics by privately computing medians instead of averages. This approach leverages the fact that the median has decreased local sensitivity when next token predictions are similar, allowing us to state a data-dependent and ex-post DP guarantee about the privacy properties of this algorithm. Finally, we demonstrate improvements in terms of representativeness metrics (e.g., MAUVE) as well as downstream task performance. We show that our method produces high-quality synthetic data at significantly lower privacy cost than a previous state-of-the-art method.
- Abstract(参考訳): Differentially Private(DP)言語モデル推論は、プライベートな合成テキストを生成するアプローチである。
センシティブな入力例は、市販の大型言語モデル(LLM)に同様の例を生成するよう促すために使用される。
DP保証を正式に満たすために、複数の例をまとめることができる。
事前の作業は、機密入力をランダムに一様にサンプリングすることで推論バッチを生成する。
均一サンプリングは、特に不均一なトピックに関して、個人が生成したテキストの品質を低下させることを示す。
我々は、推論バッチを選択する前に、入力データをクラスタリングすることで、この問題を修復する。
次に、クラスタリングが推論全体にわたって、より類似した次世代の予測につながることを観察する。
我々はこの洞察を用いて、平均ではなく、プライベートに中央値を計算することで、次のトークン統計を集約する新しいアルゴリズムを導入する。
このアプローチは、次のトークン予測が類似している場合、中央値が局所感度を低下させたという事実を活用し、このアルゴリズムのプライバシ特性に関するデータ依存およびポストDP保証を記述できる。
最後に、ダウンストリームタスクのパフォーマンスだけでなく、代表性指標(例えば、MAUVE)の点でも改善を示す。
提案手法は,従来の最先端手法に比べて,プライバシーコストが大幅に低い高品質な合成データを生成する。
関連論文リスト
- Differentially Private Random Feature Model [52.468511541184895]
プライバシを保存するカーネルマシンに対して,差分的にプライベートな特徴モデルを作成する。
本手法は,プライバシを保護し,一般化誤差を導出する。
論文 参考訳(メタデータ) (2024-12-06T05:31:08Z) - Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。
プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文 参考訳(メタデータ) (2024-07-16T18:28:40Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown [50.40020716418472]
本研究では、TopDownアルゴリズムとプライベート合成データ生成を比較し、クエリの複雑さによる精度への影響を判定する。
この結果から,TopDownアルゴリズムは,分散クエリに対して,評価したどの合成データ手法よりもはるかに優れたプライバシー-忠実トレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-01-31T17:38:34Z) - Personalized Privacy Amplification via Importance Sampling [3.0636509793595548]
本稿では,個別化されたプライバシ分析に着目し,重要サンプリングのプライバシ特性について検討する。
重要なサンプリングでは、プライバシはユーティリティとよく一致しているが、サンプルサイズとは相容れないことが分かっています。
本稿では,プライバシと効率のトレードオフを最適化する手法と,コアセット形式の実用性保証に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-07-05T17:09:10Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Dynamic Decision Boundary for One-class Classifiers applied to
non-uniformly Sampled Data [0.9569316316728905]
パターン認識の典型的な問題は、一様でないサンプルデータである。
本稿では,動的決定境界を持つ最小スパンニング木に基づく一クラス分類器を提案する。
論文 参考訳(メタデータ) (2020-04-05T18:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。