論文の概要: Detection of Personal Data in Structured Datasets Using a Large Language Model
- arxiv url: http://arxiv.org/abs/2506.22305v1
- Date: Fri, 27 Jun 2025 15:16:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.258118
- Title: Detection of Personal Data in Structured Datasets Using a Large Language Model
- Title(参考訳): 大規模言語モデルを用いた構造化データセットの個人データ検出
- Authors: Albert Agisha Ntwali, Luca Rück, Martin Heckmann,
- Abstract要約: 本稿では,GPT-4oを利用した構造化データセットの個人データ検出手法を提案する。
私たちは、Microsoft PresidioやCASSEDといった代替手法と比較して、それらを複数のデータセットで評価します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel approach for detecting personal data in structured datasets, leveraging GPT-4o, a state-of-the-art Large Language Model. A key innovation of our method is the incorporation of contextual information: in addition to a feature's name and values, we utilize information from other feature names within the dataset as well as the dataset description. We compare our approach to alternative methods, including Microsoft Presidio and CASSED, evaluating them on multiple datasets: DeSSI, a large synthetic dataset, datasets we collected from Kaggle and OpenML as well as MIMIC-Demo-Ext, a real-world dataset containing patient information from critical care units. Our findings reveal that detection performance varies significantly depending on the dataset used for evaluation. CASSED excels on DeSSI, the dataset on which it was trained. Performance on the medical dataset MIMIC-Demo-Ext is comparable across all models, with our GPT-4o-based approach clearly outperforming the others. Notably, personal data detection in the Kaggle and OpenML datasets appears to benefit from contextual information. This is evidenced by the poor performance of CASSED and Presidio (both of which do not utilize the context of the dataset) compared to the strong results of our GPT-4o-based approach. We conclude that further progress in this field would greatly benefit from the availability of more real-world datasets containing personal information.
- Abstract(参考訳): 本稿では,現在最先端の大規模言語モデルである GPT-4o を利用して,構造化データセット中の個人データを検出する手法を提案する。
提案手法の重要な革新は,特徴名と値に加えて,データセット内の他の特徴名やデータセット記述からの情報も活用する,文脈情報の導入である。
大規模な合成データセットであるDeSSIや、KaggleとOpenMLから収集したデータセット、およびクリティカルケアユニットからの患者情報を含む実世界のデータセットであるMIMIC-Demo-Extなどです。
その結果,検出性能は評価に用いるデータセットによって大きく異なることがわかった。
CASSEDはトレーニング対象のデータセットであるDeSSIを抜粋する。
医療データセットMIMIC-Demo-Extのパフォーマンスは、すべてのモデルに匹敵するものであり、GPT-4oベースのアプローチは他のモデルよりも明らかに優れています。
特に、KaggleとOpenMLデータセットの個人データ検出は、コンテキスト情報の恩恵を受けているようだ。
これは、GPT-4oベースのアプローチの強い結果と比較して、CASSEDとPresidio(どちらもデータセットのコンテキストを使わない)の貧弱なパフォーマンスによって証明されている。
この分野でのさらなる進歩は、個人情報を含むより現実的なデータセットの可用性から大きな恩恵を受けるだろうと結論付けている。
関連論文リスト
- DataMIL: Selecting Data for Robot Imitation Learning with Datamodels [77.48472034791213]
データモデルパラダイムに基づいて構築されたポリシー駆動型データ選択フレームワークであるDataMILを紹介する。
品質の概念を使ってデータをフィルタリングする標準的なプラクティスとは異なり、DataMILはタスクの成功のためにデータ選択を直接最適化する。
我々は60以上のシミュレーションと実世界の操作タスクのスイートに対して,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-05-14T17:55:10Z) - Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。
提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文 参考訳(メタデータ) (2024-10-05T17:11:37Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - Proper Dataset Valuation by Pointwise Mutual Information [26.693741797887643]
データキュレーション手法を評価するための情報理論フレームワークを提案する。
我々は,データセットの品質を,真のモデルパラメータに関する情報性の観点から定義する。
得られたデータとテストデータとの間のシャノン相互情報によりブラックウェル順序を決定することができることを示す。
論文 参考訳(メタデータ) (2024-05-28T15:04:17Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Cross-Dataset Collaborative Learning for Semantic Segmentation [17.55660581677053]
我々は、Cross-Dataset Collaborative Learning (CDCL) と呼ばれる、単純で柔軟で汎用的なセマンティックセグメンテーション手法を提案する。
複数のラベル付きデータセットを付与することで、各データセット上の特徴表現の一般化と識別を改善することを目指しています。
単一データセットとクロスデータセットの設定で,Cityscapes,BDD100K,CamVid,COCO Stuffという4つの多様なデータセットに対して,広範な評価を行う。
論文 参考訳(メタデータ) (2021-03-21T09:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。