論文の概要: PIIvot: A Lightweight NLP Anonymization Framework for Question-Anchored Tutoring Dialogues
- arxiv url: http://arxiv.org/abs/2505.16931v1
- Date: Thu, 22 May 2025 17:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.493155
- Title: PIIvot: A Lightweight NLP Anonymization Framework for Question-Anchored Tutoring Dialogues
- Title(参考訳): PIIvot: 軽量NLP匿名化フレームワーク
- Authors: Matthew Zent, Digory Smith, Simon Woodhead,
- Abstract要約: PIIvotは、PII検出問題を単純化するために、データコンテキストの知識を活用するPII匿名化フレームワークである。
また,QATD-2kは,高品質な教育対話データに対する需要に対応するため,オープンソースで最大の学習データセットである。
- 参考スコア(独自算出の注目度): 5.264430938065097
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Personally identifiable information (PII) anonymization is a high-stakes task that poses a barrier to many open-science data sharing initiatives. While PII identification has made large strides in recent years, in practice, error thresholds and the recall/precision trade-off still limit the uptake of these anonymization pipelines. We present PIIvot, a lighter-weight framework for PII anonymization that leverages knowledge of the data context to simplify the PII detection problem. To demonstrate its effectiveness, we also contribute QATD-2k, the largest open-source real-world tutoring dataset of its kind, to support the demand for quality educational dialogue data.
- Abstract(参考訳): 個人識別可能な情報(PII)匿名化は、多くのオープンサイエンスデータ共有イニシアチブにとって障壁となる高いタスクである。
PIIの同定は近年大きな進歩を遂げているが、実際にはエラーしきい値とリコール/精度トレードオフは、これらの匿名化パイプラインの取り込みを制限している。
PII検出問題を単純化するために、データコンテキストの知識を活用する軽量なPII匿名化フレームワークであるPIIvotを提案する。
また,その効果を実証するために,QATD-2kはオープンソースで最大の実世界の学習データセットであり,高品質な教育対話データの需要に応えるために貢献する。
関連論文リスト
- Augmenting Anonymized Data with AI: Exploring the Feasibility and Limitations of Large Language Models in Data Enrichment [3.459382629188014]
大規模言語モデル(LLM)は、テキスト生成と理解の両方において高度な機能を示している。
データアーカイブへのそれらの適用は、データ対象に関する機密情報の民営化を促進する可能性がある。
このデータは、保護されていないとしても、開示と身元確認の両方の観点からプライバシー上のリスクをもたらす可能性がある。
論文 参考訳(メタデータ) (2025-04-03T13:26:59Z) - P2NIA: Privacy-Preserving Non-Iterative Auditing [5.619344845505019]
AI法の出現により、リスクの高いAIシステムの倫理的コンプライアンスを評価する必要性が高まっている。
従来の監査手法は、プラットフォームのアプリケーションプログラミングインターフェース(API)に依存している。
P2NIAは,監査者とプラットフォーム双方の相互に有益なコラボレーションを提案する新しい監査手法である。
論文 参考訳(メタデータ) (2025-04-01T15:04:58Z) - PII-Bench: Evaluating Query-Aware Privacy Protection Systems [10.52362814808073]
本稿では,プライバシ保護システムを評価するための総合的な評価フレームワークであるPII-Benchを提案する。
PII-Benchは55の細粒度PIIカテゴリにまたがる2,842の試験サンプルから構成されており、単目的記述から複雑な多人数インタラクションまで多様なシナリオが特徴である。
論文 参考訳(メタデータ) (2025-02-25T14:49:08Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Disentangle Before Anonymize: A Two-stage Framework for Attribute-preserved and Occlusion-robust De-identification [55.741525129613535]
匿名化前の混乱」は、新しい二段階フレームワーク(DBAF)である
このフレームワークには、Contrastive Identity Disentanglement (CID)モジュールとKey-authorized Reversible Identity Anonymization (KRIA)モジュールが含まれている。
大規模な実験により,本手法は最先端の非識別手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T08:59:02Z) - ProPILE: Probing Privacy Leakage in Large Language Models [38.92840523665835]
大規模言語モデル(LLM)は、しばしば大量のWebコンパイルデータに基づいて訓練される。
本稿では,PII リークの可能性を意識して,データ被写体や PII の所有者を支援する新しい探索ツールである ProPILE について述べる。
論文 参考訳(メタデータ) (2023-07-04T18:53:47Z) - Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文 参考訳(メタデータ) (2023-05-17T06:33:26Z) - DP2-Pub: Differentially Private High-Dimensional Data Publication with
Invariant Post Randomization [58.155151571362914]
本稿では,2つのフェーズで動作する差分プライベートな高次元データパブリッシング機構(DP2-Pub)を提案する。
属性をクラスタ内凝集度の高い低次元クラスタに分割し、クラスタ間の結合度を低くすることで、適切なプライバシ予算を得ることができる。
また、DP2-Pubメカニズムを、ローカルの差分プライバシーを満たす半正直なサーバでシナリオに拡張します。
論文 参考訳(メタデータ) (2022-08-24T17:52:43Z) - Automated PII Extraction from Social Media for Raising Privacy
Awareness: A Deep Transfer Learning Approach [6.806025738284367]
インターネット利用者は、ソーシャルメディア上でPII(Personally Identible Information)の量を増やしている。
本研究では,これらの2つの制約に対処するために,PII抽出のためのDeep Transfer Learning(DTL-PIIE)フレームワークを提案する。
我々のフレームワークは、PII誤用予測やプライバシーリスク評価など、様々なアプリケーションを容易にすることができる。
論文 参考訳(メタデータ) (2021-11-11T19:32:05Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z) - Improving Limited Labeled Dialogue State Tracking with Self-Supervision [91.68515201803986]
既存の対話状態追跡(DST)モデルには多くのラベル付きデータが必要である。
本稿では,潜在的一貫性の維持と対話行動のモデル化という,自己指導型の2つの目的について検討する。
提案する自己教師型信号は,1%のラベル付きデータのみを使用する場合,関節ゴール精度を8.95%向上させることができる。
論文 参考訳(メタデータ) (2020-10-26T21:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。