論文の概要: Differentially-private text generation degrades output language quality
- arxiv url: http://arxiv.org/abs/2509.11176v1
- Date: Sun, 14 Sep 2025 09:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.962047
- Title: Differentially-private text generation degrades output language quality
- Title(参考訳): 微分プライベートテキスト生成は、出力言語の品質を劣化させる
- Authors: Erion Çano, Ivan Habernal,
- Abstract要約: より強いプライバシー制約の下で調整されたテキストは、少なくとも77%は短く、少なくとも9%は文法的に正確ではなく、二グラムの多様性において少なくとも10%は多様性が低い。
下流の分類タスクで到達する精度は低下し、生成した合成データの有用性を損なう可能性がある。
- 参考スコア(独自算出の注目度): 10.59878846843299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring user privacy by synthesizing data from large language models (LLMs) tuned under differential privacy (DP) has become popular recently. However, the impact of DP fine-tuned LLMs on the quality of the language and the utility of the texts they produce has not been investigated. In this work, we tune five LLMs with three corpora under four levels of privacy and assess the length, the grammatical correctness, and the lexical diversity of the text outputs they produce. We also probe the utility of the synthetic outputs in downstream classification tasks such as book genre recognition based on book descriptions and cause of death recognition based on verbal autopsies. The results indicate that LLMs tuned under stronger privacy constrains produce texts that are shorter by at least 77 %, that are less grammatically correct by at least 9 %, and are less diverse by at least 10 % in bi-gram diversity. Furthermore, the accuracy they reach in downstream classification tasks decreases, which might be detrimental to the usefulness of the generated synthetic data.
- Abstract(参考訳): 近年,差分プライバシー (DP) の下で調整された大規模言語モデル (LLM) からのデータを合成することで,ユーザのプライバシを確保することが普及している。
しかし,DP微調整 LLM が言語の品質およびそれらのテキストの有用性に与える影響については検討されていない。
本研究では,プライバシの4レベル下で5つのLLMを調整し,それらが生成するテキスト出力の長さ,文法的正確性,語彙的多様性を評価する。
また,本書の記述に基づく書誌ジャンル認識や,言語解剖に基づく死亡原因など,下流分類作業における合成出力の有用性についても検討した。
その結果、LLMはより強いプライバシー制約の下で調整され、少なくとも77%の短文が生成され、少なくとも9%の文法的正当性が低下し、二グラムの多様性において少なくとも10%の多様性が低下することが示唆された。
さらに、下流分類タスクで到達する精度は低下し、生成した合成データの有用性を損なう可能性がある。
関連論文リスト
- The Double-edged Sword of LLM-based Data Reconstruction: Understanding and Mitigating Contextual Vulnerability in Word-level Differential Privacy Text Sanitization [53.51921540246166]
我々は,言語大モデル (LLM) がDP対応テキストの文脈的脆弱性を活用可能であることを示す。
LLM再建の二重刃剣効果がプライバシーと実用性に与える影響を実験的に明らかにした。
本稿では,データ再構成を後処理のステップとして使用するための推奨事項を提案する。
論文 参考訳(メタデータ) (2025-08-26T12:22:45Z) - Private Text Generation by Seeding Large Language Model Prompts [13.407214545457778]
感性入力コーパスから個人用合成テキストコーパスを生成するDP-KPSを提案する。
下流MLテキスト分類タスクにおけるDP-KPSの評価を行い、生成したコーパスが元のテキストの予測能力の多くを保持することを示す。
論文 参考訳(メタデータ) (2025-02-18T16:50:38Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Human Variability vs. Machine Consistency: A Linguistic Analysis of Texts Generated by Humans and Large Language Models [0.0]
人文テキストと大言語モデル(LLM)で生成されたテキストとの有意な差異を同定する。
以上の結果から,人間は認知的要求の少ない文章を書けること,意味的内容の充実,感情的内容の充実などが示唆された。
論文 参考訳(メタデータ) (2024-12-04T04:38:35Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - Whose LLM is it Anyway? Linguistic Comparison and LLM Attribution for GPT-3.5, GPT-4 and Bard [5.500249707065662]
LLM(Large Language Model)は、人間の品質に類似したテキストを生成する能力を持つ。
我々は,最もポピュラーな3つのLLMから生成されるテキストの語彙,部分音声(POS)分布,依存性分布,感情を多様な入力と比較した。
その結果、言語学的に有意な変化を示し、88%の精度で所与のテキストをLLM起源とみなすことができた。
論文 参考訳(メタデータ) (2024-02-22T13:25:17Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。