論文の概要: InvisibleInk: High-Utility and Low-Cost Text Generation with Differential Privacy
- arxiv url: http://arxiv.org/abs/2507.02974v1
- Date: Mon, 30 Jun 2025 18:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.487396
- Title: InvisibleInk: High-Utility and Low-Cost Text Generation with Differential Privacy
- Title(参考訳): InvisibleInk: 異なるプライバシを持つ高実用性と低コストテキスト生成
- Authors: Vishnu Vinod, Krishna Pillutla, Abhradeep Guha Thakurta,
- Abstract要約: InvisibleInkは、厳格な差分プライバシー保証を満たすスケーラブルな長文生成フレームワークである。
モデルログ内の機密情報のみを分離・切断することで、プライバシコストを削減する。
我々は、トップ$kのプライベートトークンの小さなスーパーセットからサンプリングすることで、テキストの品質を向上させる。
- 参考スコア(独自算出の注目度): 7.006059299522521
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As major progress in LLM-based long-form text generation enables paradigms such as retrieval-augmented generation (RAG) and inference-time scaling, safely incorporating private information into the generation remains a critical open question. We present InvisibleInk, a highly scalable long-form text generation framework satisfying rigorous differential privacy guarantees with respect to the sensitive references. It interprets sampling from the LLM's next-token-distribution as the exponential mechanism over the LLM logits with two innovations. First, we reduce the privacy cost by isolating and clipping only the sensitive information in the model logits (relative to the public logits). Second, we improve text quality by sampling from a small superset of the top-$k$ private tokens. Empirical evaluations demonstrate a consistent $8\times$ reduction in computation cost over state-of-the-art baselines to generate long-form private text of the same utility across privacy levels. In summary, InvisibleInk is able to generate private long-form text at less than $10\times$ the computation cost of non-private generation.
- Abstract(参考訳): LLMベースの長文テキスト生成の大きな進歩により、検索拡張生成(RAG)や推論時間スケーリングといったパラダイムが可能になったため、プライベート情報を安全に生成に組み込むことは、依然として重要な問題である。
InvisibleInkは、高度にスケーラブルな長文テキスト生成フレームワークであり、センシティブな参照に関して厳密な差分プライバシー保証を満たす。
LLMの次点分布からのサンプリングを、LLMのロジットの指数的なメカニズムとして2つのイノベーションで解釈する。
まず、モデルロジット内の機密情報のみを分離・クリップすることで、プライバシコストを削減します(公開ロジットに関連して)。
第二に、トップ$kのプライベートトークンの小さなスーパーセットからサンプリングすることで、テキストの品質を改善します。
実証的な評価は、プライバシーレベルを越えて同じユーティリティの長文のプライベートテキストを生成するために、最先端のベースラインよりも計算コストが一貫した$8\timesの削減を示している。
要約すると、InvisibleInkはプライベートな長文を10ドル以下で生成できる。
関連論文リスト
- DP-Fusion: Token-Level Differentially Private Inference for Large Language Models [37.73455762168357]
大規模言語モデル(LLM)は、誤って、あるいは逆向きに誘導されたときに、生成された出力を通じて、コンテキストからセンシティブな情報を漏洩することができる。
DP-Fusion はトークンレベルの微分プライベート推論(DPI)機構で,LLM の出力が,そのコンテキストにおける機密トークンについてどの程度の値を示すかを示す。
論文 参考訳(メタデータ) (2025-07-06T20:49:39Z) - Urania: Differentially Private Insights into AI Use [104.7449031243196]
$Urania$は、クラスタリング、パーティション選択、ヒストグラムベースの要約といったDPツールを活用することによって、エンドツーエンドのプライバシ保護を提供する。
結果は、厳密なユーザのプライバシを維持しながら、意味のある会話の洞察を抽出するフレームワークの能力を示している。
論文 参考訳(メタデータ) (2025-06-05T07:00:31Z) - Spend Your Budget Wisely: Towards an Intelligent Distribution of the Privacy Budget in Differentially Private Text Rewriting [3.0177210416625124]
テキスト文書中のトークンの構成にプライバシー予算を割り当てるのに使用される言語学およびNLPに基づく手法のツールキットを構築し,評価する。
我々の研究は、DPによるテキストの民営化の複雑さを強調し、さらに、DPによるテキストの書き直しにおける民営化のメリットを最大化するための、より効率的な方法を見つけることを求めている。
論文 参考訳(メタデータ) (2025-03-28T12:33:46Z) - Investigating User Perspectives on Differentially Private Text Privatization [81.59631769859004]
この研究は、$textitscenario$, $textitdata sensitivity$, $textitmechanism type$, $textitreason for data collection$, $textitreason for user preferences for text privatizationについて調査する。
これらの要因がプライバシー決定に影響を及ぼす一方で、ユーザはプライベートな出力テキストの有用性と一貫性に非常に敏感である、ということを学びました。
論文 参考訳(メタデータ) (2025-03-12T12:33:20Z) - Privacy-Preserving Retrieval-Augmented Generation with Differential Privacy [25.896416088293908]
検索強化世代(RAG)は大規模言語モデル(LLM)を支援するのに特に有効である
RAGは、外部データソースから機密情報を漏洩するリスクを出力する。
機密情報を必要とするトークンに対してのみ、プライバシー予算を賢く費やすアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-06T01:20:16Z) - Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。
プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文 参考訳(メタデータ) (2024-07-16T18:28:40Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - InferDPT: Privacy-Preserving Inference for Black-box Large Language Model [66.07752875835506]
InferDPTは、ブラックボックスLSMのプライバシ保護推論のための最初の実用的なフレームワークである。
RANTEXTはInferDPTの摂動モジュールに組み込まれた新しい微分プライバシー機構である。
論文 参考訳(メタデータ) (2023-10-18T18:00:11Z) - Smooth Anonymity for Sparse Graphs [69.1048938123063]
しかし、スパースデータセットを共有するという点では、差分プライバシーがプライバシのゴールドスタンダードとして浮上している。
本研究では、スムーズな$k$匿名性(スムーズな$k$匿名性)と、スムーズな$k$匿名性(スムーズな$k$匿名性)を提供する単純な大規模アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Differentially Private n-gram Extraction [19.401898070938593]
差分プライバシー設定における$n$-gram抽出の問題を再考する。
この問題では、プライベートテキストデータのコーパスを前提として、ユーザレベルのプライバシを維持しながら、可能な限り多くの$n-gramをリリースすることが目標である。
我々はこの問題に対する新たな微分プライベートなアルゴリズムを開発し、このアルゴリズムは我々の実験で最先端のアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2021-08-05T19:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。