論文の概要: Privacy- and Utility-Preserving NLP with Anonymized Data: A case study
of Pseudonymization
- arxiv url: http://arxiv.org/abs/2306.05561v1
- Date: Thu, 8 Jun 2023 21:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 15:24:58.671770
- Title: Privacy- and Utility-Preserving NLP with Anonymized Data: A case study
of Pseudonymization
- Title(参考訳): 匿名化データを用いたプライバシとユーティリティ保護NLP:擬似化を事例として
- Authors: Oleksandr Yermilov, Vipul Raheja, Artem Chernodub
- Abstract要約: 私たちの研究は、オリジナルデータと匿名データのギャップに関する重要な洞察を提供します。
コード、偽名付きデータセット、ダウンストリームモデルを公開しています。
- 参考スコア(独自算出の注目度): 22.84767881115746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates the effectiveness of different pseudonymization
techniques, ranging from rule-based substitutions to using pre-trained Large
Language Models (LLMs), on a variety of datasets and models used for two widely
used NLP tasks: text classification and summarization. Our work provides
crucial insights into the gaps between original and anonymized data (focusing
on the pseudonymization technique) and model quality and fosters future
research into higher-quality anonymization techniques to better balance the
trade-offs between data protection and utility preservation. We make our code,
pseudonymized datasets, and downstream models publicly available
- Abstract(参考訳): 本研究では,ルールベースの置換から事前学習されたLarge Language Models (LLMs) まで,テキスト分類と要約という2つのNLPタスクに使用されるさまざまなデータセットとモデルに対する様々な擬似化手法の有効性について検討する。
我々の研究は、原データと匿名データのギャップ(偽名化技術に焦点をあてる)とモデル品質のギャップに関する重要な洞察を提供し、データ保護とユーティリティ保存のトレードオフのバランスを改善するために、高品質な匿名化技術の研究を促進する。
コード、偽名付きデータセット、ダウンストリームモデルを公開します
関連論文リスト
- Privacy-preserving datasets by capturing feature distributions with Conditional VAEs [0.11999555634662634]
条件付き変分オートエンコーダ(CVAE)は、大きな事前学習された視覚基盤モデルから抽出された特徴ベクトルに基づいて訓練される。
本手法は, 医用領域と自然画像領域の両方において, 従来のアプローチよりも優れている。
結果は、データスカースおよびプライバシに敏感な環境におけるディープラーニングアプリケーションに大きな影響を与える生成モデルの可能性を強調している。
論文 参考訳(メタデータ) (2024-08-01T15:26:24Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Benchmarking Advanced Text Anonymisation Methods: A Comparative Study on Novel and Traditional Approaches [5.891554349884001]
本稿では,変圧器モデルと大規模言語モデルの性能を,テキスト匿名化のための従来のアーキテクチャと比較する。
本研究は, 従来の手法と現代手法の有効性について, それぞれのアプローチの長所と短所を明らかにした。
論文 参考訳(メタデータ) (2024-04-22T12:06:54Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Comparison of machine learning models applied on anonymized data with
different techniques [0.0]
分類目的に現在使われている4つの古典的機械学習手法を,匿名化手法の関数として解析し,それぞれが選択したパラメータについて検討した。
これらのモデルの性能は、k-匿名性に対するkの値の変化と、$ell$-diversity、t-closeness、$delta$-disclosure privacyなどの追加ツールがよく知られたアダルトデータセットにデプロイされるときにも検討される。
論文 参考訳(メタデータ) (2023-05-12T12:34:07Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - Style Transfer as Data Augmentation: A Case Study on Named Entity
Recognition [17.892385961143173]
本稿では,テキストを高リソース領域から低リソース領域へ変換する手法を提案する。
我々は、データ選択のための重要な要素のセットとともに制約付き復号アルゴリズムを設計し、有効かつ一貫性のあるデータの生成を保証する。
我々のアプローチはデータの不足に対する実用的な解決策であり、他のNLPタスクに適用できることを期待しています。
論文 参考訳(メタデータ) (2022-10-14T16:02:03Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。