論文の概要: Enhancing the De-identification of Personally Identifiable Information in Educational Data
- arxiv url: http://arxiv.org/abs/2501.09765v1
- Date: Tue, 14 Jan 2025 20:53:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:00:53.316678
- Title: Enhancing the De-identification of Personally Identifiable Information in Educational Data
- Title(参考訳): 教育データにおける個人識別情報の再同定の促進
- Authors: Y. Shen, Z. Ji, J. Lin, K. R. Koedginer,
- Abstract要約: PIIは、学生や教師のプライバシーを保護し、信頼を維持するための重要な要件である。
本研究では,GPT-4o-miniモデルをPII検出タスクの費用対効果と効率的な解として検討した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Protecting Personally Identifiable Information (PII), such as names, is a critical requirement in learning technologies to safeguard student and teacher privacy and maintain trust. Accurate PII detection is an essential step toward anonymizing sensitive information while preserving the utility of educational data. Motivated by recent advancements in artificial intelligence, our study investigates the GPT-4o-mini model as a cost-effective and efficient solution for PII detection tasks. We explore both prompting and fine-tuning approaches and compare GPT-4o-mini's performance against established frameworks, including Microsoft Presidio and Azure AI Language. Our evaluation on two public datasets, CRAPII and TSCC, demonstrates that the fine-tuned GPT-4o-mini model achieves superior performance, with a recall of 0.9589 on CRAPII. Additionally, fine-tuned GPT-4o-mini significantly improves precision scores (a threefold increase) while reducing computational costs to nearly one-tenth of those associated with Azure AI Language. Furthermore, our bias analysis reveals that the fine-tuned GPT-4o-mini model consistently delivers accurate results across diverse cultural backgrounds and genders. The generalizability analysis using the TSCC dataset further highlights its robustness, achieving a recall of 0.9895 with minimal additional training data from TSCC. These results emphasize the potential of fine-tuned GPT-4o-mini as an accurate and cost-effective tool for PII detection in educational data. It offers robust privacy protection while preserving the data's utility for research and pedagogical analysis. Our code is available on GitHub: https://github.com/AnonJD/PrivacyAI
- Abstract(参考訳): 個人識別情報(PII)の保護は,学生のプライバシや教師のプライバシを保護し,信頼を維持するための技術を学ぶ上で重要な要件である。
正確なPII検出は、教育データの有用性を保ちながら機密情報を匿名化するための重要なステップである。
近年の人工知能の進歩に触発されて,PII検出タスクの費用対効果と効率的な解法として,GPT-4o-miniモデルについて検討した。
我々は、プロンプトと微調整の両方のアプローチを検討し、GPT-4o-miniのパフォーマンスをMicrosoft PresidioやAzure AI Languageといった既存のフレームワークと比較する。
CRAPII と TSCC の2つの公開データセットについて評価した結果,細調整した GPT-4o-mini モデルの方が優れた性能を示し,CRAPII の 0.9589 をリコールした。
さらに、微調整のGPT-4o-miniは精度を著しく向上させ(3倍増)、計算コストをAzure AI Languageの約10分の1に削減する。
さらに, 微調整のGPT-4o-miniモデルでは, 多様な文化的背景や性別に対して, 常に正確な結果が得られることがわかった。
TSCCデータセットを用いた一般化可能性分析は、その堅牢性をさらに強調し、TSCCからの最小限のトレーニングデータで0.9895のリコールを達成する。
これらの結果は、教育データにおけるPII検出の正確で費用対効果の高いツールとして、微調整GPT-4o-miniの可能性を強調した。
研究と教育分析のためのデータのユーティリティを維持しながら、堅牢なプライバシ保護を提供する。
私たちのコードはGitHubで入手できる。 https://github.com/AnonJD/PrivacyAI
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Towards Robust and Cost-Efficient Knowledge Unlearning for Large Language Models [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMのための堅牢で効率的なアンラーニングのための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Differential Privacy Mechanisms in Neural Tangent Kernel Regression [29.187250620950927]
ニューラルタンジェントカーネル(NTK)回帰設定における差分プライバシー(DP)について検討する。
NTKレグレッションの差分プライバシとテスト精度の両面で証明可能な保証を示す。
我々の知る限り、NTKレグレッションに対するDP保証を提供する最初の取り組みである。
論文 参考訳(メタデータ) (2024-07-18T15:57:55Z) - Initial Exploration of Zero-Shot Privacy Utility Tradeoffs in Tabular Data Using GPT-4 [2.54365580380609]
グラフデータにおけるプライバシとユーティリティのトレードオフを含むシナリオに対する大規模言語モデル(LLM)の適用について検討する。
提案手法では,データポイントをテキスト形式に変換して GPT-4 を促進させるとともに,正確な衛生指示をゼロショットで含める。
この比較的単純なアプローチは、プライバシとユーティリティのトレードオフを管理するために使われる、より複雑な逆最適化手法に匹敵するパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-04-07T19:02:50Z) - Automated Root Causing of Cloud Incidents using In-Context Learning with
GPT-4 [23.856839017006386]
ルート原因分析(RCA)は、クラウドサービスのインシデント診断プロセスにおいて重要な役割を果たす。
GPT-4モデルの巨大なサイズは、ユーザデータにそれを微調整しようとする際の課題を示す。
そこで本研究では,自動ルート生成のためのコンテキスト内学習手法を提案し,微調整の必要性を排除した。
論文 参考訳(メタデータ) (2024-01-24T21:02:07Z) - Using GPT-4 to Augment Unbalanced Data for Automatic Scoring [0.5586073503694489]
生成型大規模言語モデルである GPT-4 を利用した新しいテキストデータ拡張フレームワークを提案する。
我々は GPT-4 で応答を生成するプロンプトを作成した。
拡張データセットとオリジナルデータセットに基づいて自動スコアリングのためにDistillBERTを微調整した。
論文 参考訳(メタデータ) (2023-10-25T01:07:50Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Deep Reinforcement Learning Assisted Federated Learning Algorithm for
Data Management of IIoT [82.33080550378068]
産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。
IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法は、依然として未解決の問題である。
本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。
論文 参考訳(メタデータ) (2022-02-03T07:12:36Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。