論文の概要: Controlled Generation for Private Synthetic Text
- arxiv url: http://arxiv.org/abs/2509.25729v1
- Date: Tue, 30 Sep 2025 03:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.413987
- Title: Controlled Generation for Private Synthetic Text
- Title(参考訳): プライベートテキストのための制御された生成法
- Authors: Zihao Zhao, Anjalie Field,
- Abstract要約: プライバシ保護型合成テキスト生成のための新しい手法を提案する。
提案手法では,制御可能な生成を誘導するエンティティ・アウェア・コントロール・コードを導入している。
法的および臨床的データセットの実験により,本手法はプライバシー保護と実用性の間に強いバランスを保っていることが示された。
- 参考スコア(独自算出の注目度): 4.210647622615256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text anonymization is essential for responsibly developing and deploying AI in high-stakes domains such as healthcare, social services, and law. In this work, we propose a novel methodology for privacy-preserving synthetic text generation that leverages the principles of de-identification and the Hiding In Plain Sight (HIPS) theory. Our approach introduces entity-aware control codes to guide controllable generation using either in-context learning (ICL) or prefix tuning. The ICL variant ensures privacy levels consistent with the underlying de-identification system, while the prefix tuning variant incorporates a custom masking strategy and loss function to support scalable, high-quality generation. Experiments on legal and clinical datasets demonstrate that our method achieves a strong balance between privacy protection and utility, offering a practical and effective solution for synthetic text generation in sensitive domains.
- Abstract(参考訳): テキストの匿名化は、医療、社会サービス、法律といった高度な分野において、AIを責任を持って開発し、展開するために不可欠である。
本研究では,非識別の原理とHIPS(Hiding In Plain Sight)理論を利用したプライバシー保護型合成テキスト生成手法を提案する。
提案手法では,コンテキスト内学習(ICL)とプレフィックスチューニングを用いて,制御可能な生成を誘導するエンティティ・アウェア・コントロール・コードを導入している。
ICLの変種は、基礎となる非識別システムとプライバシーレベルを一致させ、プレフィックスチューニングの変種は、スケーラブルで高品質な生成をサポートするために、カスタムマスキング戦略と損失関数を組み込んでいる。
法的および臨床的データセットの実験により,本手法はプライバシー保護とユーティリティのバランスを保ち,センシティブなドメインにおけるテキスト生成のための実用的で効果的なソリューションを提供する。
関連論文リスト
- Zero-Shot Privacy-Aware Text Rewriting via Iterative Tree Search [60.197239728279534]
クラウドベースのサービスにおける大規模言語モデル(LLM)は、重大なプライバシー上の懸念を引き起こしている。
既存のテキスト匿名化と、ルールベースのリアクションやスクラブのような非識別技術は、プライバシー保護とテキストの自然性と実用性のバランスをとるのに苦労することが多い。
我々は,一貫性,妥当性,自然性を保ちながら,秘密情報を体系的に難読化・削除するゼロショット木探索型反復文書き換えアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-25T07:23:52Z) - SynBench: A Benchmark for Differentially Private Text Generation [35.908455649647784]
医療や金融といった高度な分野におけるデータ駆動型意思決定のサポートは、データ共有にとって大きな障壁に直面している。
大規模言語モデルのような最近の生成AIモデルは、オープンドメインタスクにおいて印象的なパフォーマンスを示している。
しかし、彼らのセンシティブな環境への導入は、予測不可能な振る舞いと、プライバシー保護の不十分なデータセットによって制限されている。
論文 参考訳(メタデータ) (2025-09-18T03:57:50Z) - Privacy-Aware In-Context Learning for Large Language Models [12.605629953620495]
大型言語モデル(LLM)は、機密情報の潜在的な暴露によるプライバシー上の懸念を提起する。
プライバシー保証の強い高品質な合成テキストを生成するための,新たなプライベートな予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T01:50:32Z) - The Double-edged Sword of LLM-based Data Reconstruction: Understanding and Mitigating Contextual Vulnerability in Word-level Differential Privacy Text Sanitization [53.51921540246166]
我々は,言語大モデル (LLM) がDP対応テキストの文脈的脆弱性を活用可能であることを示す。
LLM再建の二重刃剣効果がプライバシーと実用性に与える影響を実験的に明らかにした。
本稿では,データ再構成を後処理のステップとして使用するための推奨事項を提案する。
論文 参考訳(メタデータ) (2025-08-26T12:22:45Z) - Urania: Differentially Private Insights into AI Use [102.27238986985698]
$Urania$は、クラスタリング、パーティション選択、ヒストグラムベースの要約といったDPツールを活用することによって、エンドツーエンドのプライバシ保護を提供する。
結果は、厳密なユーザのプライバシを維持しながら、意味のある会話の洞察を抽出するフレームワークの能力を示している。
論文 参考訳(メタデータ) (2025-06-05T07:00:31Z) - Synthetic Text Generation for Training Large Language Models via Gradient Matching [27.74603049449281]
合成可読テキストを生成するための理論的に厳密な最初のアプローチを提案する。
合成例の埋め込みを反復的に最適化するために, Alternating Direction Method of Multipliers (ADMM) を利用する。
生成した合成テキストは、実際のデータを微調整して得られた解の近傍にモデルを収束させることを保証している。
論文 参考訳(メタデータ) (2025-02-24T19:49:15Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Synthetic Text Generation with Differential Privacy: A Simple and
Practical Recipe [32.63295550058343]
テキスト領域におけるシンプルで実用的なレシピは、強力なプライバシー保護を備えた有用な合成テキストを生成するのに有効であることを示す。
提案手法は,非私的テキストと実用性で競合する合成テキストを生成する。
論文 参考訳(メタデータ) (2022-10-25T21:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。