論文の概要: How Private are Language Models in Abstractive Summarization?
- arxiv url: http://arxiv.org/abs/2412.12040v2
- Date: Tue, 27 May 2025 11:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.07659
- Title: How Private are Language Models in Abstractive Summarization?
- Title(参考訳): 抽象要約における言語モデルはどの程度プライベートか?
- Authors: Anthony Hughes, Ning Ma, Nikolaos Aletras,
- Abstract要約: 医療や法律などの機密ドメインでは、機密情報を保護することが重要である。
これは、医療報告や訴訟要約などの貴重なデータを共有する上での課題である。
プライベートでないソース文書から、どの程度プライバシ保護の要約を提供できるのか、まだ明らかな疑問である。
- 参考スコア(独自算出の注目度): 36.801842863853715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In sensitive domains such as medical and legal, protecting sensitive information is critical, with protective laws strictly prohibiting the disclosure of personal data. This poses challenges for sharing valuable data such as medical reports and legal cases summaries. While language models (LMs) have shown strong performance in text summarization, it is still an open question to what extent they can provide privacy-preserving summaries from non-private source documents. In this paper, we perform a comprehensive study of privacy risks in LM-based summarization across two closed- and four open-weight models of different sizes and families. We experiment with both prompting and fine-tuning strategies for privacy-preservation across a range of summarization datasets including medical and legal domains. Our quantitative and qualitative analysis, including human evaluation, shows that LMs frequently leak personally identifiable information in their summaries, in contrast to human-generated privacy-preserving summaries, which demonstrate significantly higher privacy protection levels. These findings highlight a substantial gap between current LM capabilities and expert human expert performance in privacy-sensitive summarization tasks.
- Abstract(参考訳): 医療や法律などの機密ドメインでは、機密情報の保護が重要であり、保護法は個人情報の開示を厳格に禁止している。
これは、医療報告や訴訟要約などの貴重なデータを共有する上での課題である。
言語モデル(LM)は、テキスト要約において高いパフォーマンスを示しているが、プライバシ保存の要約をプライベートでないソース文書からどの程度提供できるかについては、未解決の問題である。
本稿では、異なるサイズと家族の2つのオープンウェイトモデルと4つのオープンウェイトモデルにまたがる、LMに基づく要約におけるプライバシーリスクの包括的研究を行う。
医療分野や法律分野を含む一連の要約データセットを対象に,プライバシ保護のための迅速かつ微調整戦略を実験的に検討した。
人間の評価を含む定量的・定性的な分析は、人為的なプライバシー保護レベルが著しく高い人為的プライバシー保護サマリーとは対照的に、LMが個人を識別できる情報を要約中に頻繁にリークしていることを示している。
これらの知見は、プライバシーに敏感な要約タスクにおいて、現在のLM能力と熟練した人間専門家のパフォーマンスの間にかなりのギャップがあることを浮き彫りにしている。
関連論文リスト
- Membership Inference Attack against Long-Context Large Language Models [8.788010048413188]
すべての情報を長いコンテキストに統合することで、センシティブな情報のリポジトリになる、と我々は主張する。
LCLMに適した6つのメンバシップ推論攻撃戦略を提案する。
LCLMがそのような会員情報を明らかにするのに有効な理由について検討する。
論文 参考訳(メタデータ) (2024-11-18T09:50:54Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文 参考訳(メタデータ) (2024-06-03T14:51:27Z) - FABLES: Evaluating faithfulness and content selection in book-length summarization [55.50680057160788]
本稿では,本書の忠実度と内容選択の大規模評価を行う。
LLMが生成した26冊のサマリーで作成した3,158冊の注釈のデータセットであるFABLESを5.2KUSDで収集する。
注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。
論文 参考訳(メタデータ) (2024-04-01T17:33:38Z) - On Protecting the Data Privacy of Large Language Models (LLMs): A Survey [35.48984524483533]
LLM(Large Language Model)は、人間の言語を理解し、生成し、翻訳できる複雑な人工知能システムである。
LLMは大量のデータを処理して生成し、データプライバシを脅かす可能性がある。
論文 参考訳(メタデータ) (2024-03-08T08:47:48Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey [43.063650238194384]
大規模言語モデル(LLM)は,近年,大規模化と広範囲なトレーニングデータによるパフォーマンス向上を図っている。
機械学習モデルのトレーニングデータ記憶は、特にLLMに関して、モデルサイズに合わせてスケールする。
記憶されたテキストシーケンスは、LSMから直接リークされる可能性があり、データのプライバシに深刻な脅威をもたらす。
論文 参考訳(メタデータ) (2023-09-27T15:15:23Z) - Analyzing Leakage of Personally Identifiable Information in Language
Models [13.467340359030855]
言語モデル (LM) は, 文レベルのメンバシップ推論と再構築攻撃を通じて, トレーニングデータに関する情報を漏らすことが示されている。
スクレイビング技術は減少するが、PII漏れのリスクを防止しない。
ユーザーレベルのプライバシーを保証し、PIIの開示を防止するために設計された、差分プライバシーのようなアルゴリズムによる防御の程度は不明確である。
論文 参考訳(メタデータ) (2023-02-01T16:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。