Fugu-MT 論文翻訳(概要): NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human

論文の概要: NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human

arxiv url: http://arxiv.org/abs/2406.03749v1
Date: Thu, 6 Jun 2024 05:07:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 18:15:59.972796
Title: NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human
Title（参考訳）: NAP^2:人間の学習による自然性・プライバシー保護テキストの書き直しベンチマーク
Authors: Shuo Huang, William MacLean, Xiaoxi Kang, Anqi Wu, Lizhen Qu, Qiongkai Xu, Zhuang Li, Xingliang Yuan, Gholamreza Haffari,
Abstract要約: 我々は,人間によって使用される2つの共通戦略を用いて,機密テキストの衛生化を提案する。我々は,クラウドソーシングと大規模言語モデルの利用を通じて,NAP2という最初のコーパスをキュレートする。
参考スコア（独自算出の注目度）: 55.20137833039499
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Increasing concerns about privacy leakage issues in academia and industry arise when employing NLP models from third-party providers to process sensitive texts. To protect privacy before sending sensitive data to those models, we suggest sanitizing sensitive text using two common strategies used by humans: i) deleting sensitive expressions, and ii) obscuring sensitive details by abstracting them. To explore the issues and develop a tool for text rewriting, we curate the first corpus, coined NAP^2, through both crowdsourcing and the use of large language models (LLMs). Compared to the prior works based on differential privacy, which lead to a sharp drop in information utility and unnatural texts, the human-inspired approaches result in more natural rewrites and offer an improved balance between privacy protection and data utility, as demonstrated by our extensive experiments.
Abstract（参考訳）: 学術や業界におけるプライバシー漏洩問題への懸念が高まっているのは、サードパーティプロバイダのNLPモデルを使用して機密テキストを処理する場合である。これらのモデルに機密データを送信する前にプライバシを保護するために、人間による2つの一般的な戦略を用いて機密テキストを衛生化することを提案する。一繊細な表現を削除すること、及び二機密事項を抽象化して隠蔽すること。そこで本研究では,クラウドソーシングと大規模言語モデル(LLM)の利用を通じて,最初のコーパスであるNAP^2をキュレートする。情報ユーティリティと不自然なテキストの急激な減少につながる、差分プライバシーに基づく以前の研究と比較すると、人間にインスパイアされたアプローチは、より自然な書き直しをもたらし、プライバシー保護とデータユーティリティのバランスを改善する。

関連論文リスト

Semantically-Aware LLM Agent to Enhance Privacy in Conversational AI Services [0.0]
遠隔Large Language Models (LLM) を用いた場合, センシティブなPIIデータを保護するためのセマンティック・アウェア・プライバシ・エージェントを提案する。応答品質を劣化させるような以前の作業とは異なり、我々のアプローチはユーザプロンプトのセンシティブなPIIエンティティを意味的に一貫した名前で動的に置き換える。この結果から,LOPSIDEDは基本手法と比較して意味的ユーティリティエラーを5倍に削減できることがわかった。
論文参考訳（メタデータ） (2025-10-30T21:34:23Z)
Zero-Shot Privacy-Aware Text Rewriting via Iterative Tree Search [60.197239728279534]
クラウドベースのサービスにおける大規模言語モデル(LLM)は、重大なプライバシー上の懸念を引き起こしている。既存のテキスト匿名化と、ルールベースのリアクションやスクラブのような非識別技術は、プライバシー保護とテキストの自然性と実用性のバランスをとるのに苦労することが多い。我々は,一貫性,妥当性,自然性を保ちながら,秘密情報を体系的に難読化・削除するゼロショット木探索型反復文書き換えアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-09-25T07:23:52Z)
Privacy-Aware In-Context Learning for Large Language Models [12.605629953620495]
大型言語モデル(LLM)は、機密情報の潜在的な暴露によるプライバシー上の懸念を提起する。プライバシー保証の強い高品質な合成テキストを生成するための,新たなプライベートな予測フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-17T01:50:32Z)
The Double-edged Sword of LLM-based Data Reconstruction: Understanding and Mitigating Contextual Vulnerability in Word-level Differential Privacy Text Sanitization [53.51921540246166]
我々は,言語大モデル (LLM) がDP対応テキストの文脈的脆弱性を活用可能であることを示す。 LLM再建の二重刃剣効果がプライバシーと実用性に与える影響を実験的に明らかにした。本稿では,データ再構成を後処理のステップとして使用するための推奨事項を提案する。
論文参考訳（メタデータ） (2025-08-26T12:22:45Z)
T2UE: Generating Unlearnable Examples from Text Descriptions [60.111026156038264]
Unlearnable Examples (UEs) は、無許可のモデルトレーニングに対する有望な対策として登場した。 textbfText-to-Unlearnable Example (T2UE)は,テキスト記述のみを用いてUEを生成する新しいフレームワークである。
論文参考訳（メタデータ） (2025-08-05T05:10:14Z)
A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文参考訳（メタデータ） (2025-04-28T01:16:27Z)
Investigating User Perspectives on Differentially Private Text Privatization [81.59631769859004]
この研究は、$textitscenario$, $textitdata sensitivity$, $textitmechanism type$, $textitreason for data collection$, $textitreason for user preferences for text privatizationについて調査する。これらの要因がプライバシー決定に影響を及ぼす一方で、ユーザはプライベートな出力テキストの有用性と一貫性に非常に敏感である、ということを学びました。
論文参考訳（メタデータ） (2025-03-12T12:33:20Z)
Token-Level Privacy in Large Language Models [7.4143291213663955]
本稿では,文脈情報と意味情報を統合するトークンレベルの新しいプライバシ保護機構であるdchi-stencilを紹介する。意味的ニュアンスと文脈的ニュアンスの両方を取り入れることで、dchi-stencilはプライバシとユーティリティの堅牢なバランスを実現する。この研究は、現代の高リスクアプリケーションにおけるプライバシ保護NLPの新しい標準を設定するためのdchi-stencilの可能性を強調している。
論文参考訳（メタデータ） (2025-03-05T16:27:25Z)
Truthful Text Sanitization Guided by Inference Attacks [2.824895388993495]
テキストサニタイズの目的は、個人を直接または間接的に識別できる文書にそれらのテキストスパンを書き換えることである。本稿では,原文のセマンティックコンテンツをサブセットする一般化に基づく自動テキスト衛生戦略を提案する。
論文参考訳（メタデータ） (2024-12-17T14:07:01Z)
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。 GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文参考訳（メタデータ） (2024-08-29T17:58:38Z)
Trust No Bot: Discovering Personal Disclosures in Human-LLM Conversations in the Wild [40.57348900292574]
人間とチャットボットのインタラクションにおける個人の開示を測定することで、ユーザのAIリテラシーをよりよく理解することができる。我々は、実際のユーザが商用のGPTモデルに対して行った個人情報を詳細に分析する。
論文参考訳（メタデータ） (2024-07-16T07:05:31Z)
Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2023-10-27T04:15:30Z)
FLTrojan: Privacy Leakage Attacks against Federated Language Models Through Selective Weight Tampering [2.2194815687410627]
悪意のあるクライアントが、サーバからの協力なしに、FL内の他のユーザのプライバシーに敏感なデータを漏洩させる方法を示す。提案手法は, 最大71%の個人データ再構成を達成し, 会員推算率を29%向上させる。
論文参考訳（メタデータ） (2023-10-24T19:50:01Z)
PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文参考訳（メタデータ） (2023-10-03T22:37:01Z)
ChatGPT for Us: Preserving Data Privacy in ChatGPT via Dialogue Text Ambiguation to Expand Mental Health Care Delivery [52.73936514734762]
ChatGPTは人間のような対話を生成する能力で人気を集めている。データに敏感なドメインは、プライバシとデータ所有に関する懸念から、ChatGPTを使用する際の課題に直面している。ユーザのプライバシーを守るためのテキスト曖昧化フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-19T02:09:52Z)
Planting and Mitigating Memorized Content in Predictive-Text Language Models [11.911353678499008]
言語モデルは、ユーザ製品に自動テキスト補完サービスを提供するために広くデプロイされている。近年の研究では、言語モデルがプライベートトレーニングデータを記憶するかなりのリスクを負っていることが明らかになっている。本研究では,機密テキストの意図しない暗記を緩和するために,プライバシー保護手法の有効性を検証した。
論文参考訳（メタデータ） (2022-12-16T17:57:14Z)
Synthetic Text Generation with Differential Privacy: A Simple and Practical Recipe [32.63295550058343]
テキスト領域におけるシンプルで実用的なレシピは、強力なプライバシー保護を備えた有用な合成テキストを生成するのに有効であることを示す。提案手法は,非私的テキストと実用性で競合する合成テキストを生成する。
論文参考訳（メタデータ） (2022-10-25T21:21:17Z)
You Are What You Write: Preserving Privacy in the Era of Large Language Models [2.3431670397288005]
本稿では,様々な人気モデルを用いて,事前学習された表現に符号化された個人情報の範囲について,実証的研究を行う。モデルの複雑さ,事前学習に使用するデータ量,およびデータ漏洩との間には,正の相関関係を示す。
論文参考訳（メタデータ） (2022-04-20T11:12:53Z)
Just Fine-tune Twice: Selective Differential Privacy for Large Language Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文参考訳（メタデータ） (2022-04-15T22:36:55Z)
Semantics-Preserved Distortion for Personal Privacy Protection in Information Management [65.08939490413037]
本稿では,意味的整合性を維持しつつテキストを歪ませる言語学的アプローチを提案する。本稿では, 意味保存歪みの枠組みとして, 生成的アプローチと置換的アプローチの2つを提示する。また、特定の医療情報管理シナリオにおけるプライバシ保護についても検討し、機密データの記憶を効果的に制限していることを示す。
論文参考訳（メタデータ） (2022-01-04T04:01:05Z)
CAPE: Context-Aware Private Embeddings for Private Language Learning [0.5156484100374058]
Context-Aware Private Embeddings (CAPE)は、埋め込みのトレーニング中にプライバシを保存する新しいアプローチである。 CAPEはディファレンシャルプライバシを通じて校正ノイズを適用し、機密情報を隠蔽しながらエンコードされたセマンティックリンクを保存する。実験結果から,提案手法は単一介入よりも情報漏洩を低減させることが示された。
論文参考訳（メタデータ） (2021-08-27T14:50:12Z)
Privacy-Adaptive BERT for Natural Language Understanding [20.821155542969947]
BERTを用いたローカルプライバシ設定下でのNLUモデルの有効性向上について検討する。本稿では,プライバシ対応lmプリトレーニング手法を提案し,民営化テキスト入力におけるモデル性能を大幅に向上できることを実証する。
論文参考訳（メタデータ） (2021-04-15T15:01:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。