論文の概要: ClustEm4Ano: Clustering Text Embeddings of Nominal Textual Attributes for Microdata Anonymization
- arxiv url: http://arxiv.org/abs/2412.12649v1
- Date: Tue, 17 Dec 2024 08:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:47.883801
- Title: ClustEm4Ano: Clustering Text Embeddings of Nominal Textual Attributes for Microdata Anonymization
- Title(参考訳): ClustEm4Ano:マイクロデータ匿名化のためのノミナルテキスト属性のクラスタリングテキスト埋め込み
- Authors: Robert Aufschläger, Sebastian Wilhelm, Michael Heigl, Martin Schramm,
- Abstract要約: この研究は、一般化と抑圧ベースの匿名化に使用できる匿名化パイプラインであるClustEm4Anoを紹介する。
これは自動的に値一般化階層(VGH)を生成し、従って、準識別子の属性を一般化することができる。
ClustEm4Anoは任意に選択されたVGHよりも多くの可能性を提供することで匿名化手順をサポートする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This work introduces ClustEm4Ano, an anonymization pipeline that can be used for generalization and suppression-based anonymization of nominal textual tabular data. It automatically generates value generalization hierarchies (VGHs) that, in turn, can be used to generalize attributes in quasi-identifiers. The pipeline leverages embeddings to generate semantically close value generalizations through iterative clustering. We applied KMeans and Hierarchical Agglomerative Clustering on $13$ different predefined text embeddings (both open and closed-source (via APIs)). Our approach is experimentally tested on a well-known benchmark dataset for anonymization: The UCI Machine Learning Repository's Adult dataset. ClustEm4Ano supports anonymization procedures by offering more possibilities compared to using arbitrarily chosen VGHs. Experiments demonstrate that these VGHs can outperform manually constructed ones in terms of downstream efficacy (especially for small $k$-anonymity ($2 \leq k \leq 30$)) and therefore can foster the quality of anonymized datasets. Our implementation is made public.
- Abstract(参考訳): この研究は、匿名化パイプラインであるClustEm4Anoを導入し、名前付きテキスト表データの一般化と抑圧に基づく匿名化に使用できる。
これは自動的に値一般化階層(VGH)を生成し、従って、準識別子の属性を一般化することができる。
パイプラインは埋め込みを利用して反復的なクラスタリングを通じてセマンティックにクローズドな値の一般化を生成する。
私たちは、KMeansとHierarchical Agglomerative Clusteringを、(APIを介して)オープンソースとクローズドソースの両方で、13ドルの異なる事前定義されたテキスト埋め込みに適用しました。
UCI Machine Learning Repositoryのアダルトデータセットは、匿名化のためのよく知られたベンチマークデータセットである。
ClustEm4Anoは、任意に選択されたVGHよりも多くの可能性を提供することで匿名化手順をサポートする。
実験では、これらのVGHは下流の有効性(特に小さな$k$匿名性(2$leq k \leq 30$)で手作業で構築したものよりも優れており、したがって匿名化されたデータセットの品質を高めることができる。
私たちの実装は公開されています。
関連論文リスト
- Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Benchmarking and Analyzing Generative Data for Visual Recognition [66.55174903469722]
この研究は生成的画像の影響を深く掘り下げ、主に外部データを利用するパラダイムを比較する。
我々は、2548のカテゴリを持つ22のデータセットからなるベンチマークである textbfGenBench を考案し、様々な視覚的認識タスクにまたがる生成データを評価した。
我々の徹底的なベンチマークと分析は、将来の調査における重要な課題を特定しながら、視覚認識における生成データの約束をスポットライトで示している。
論文 参考訳(メタデータ) (2023-07-25T17:59:59Z) - Actively Supervised Clustering for Open Relation Extraction [42.114747195195655]
本稿では,OpenREのためのアクティブなクラスタリングという,新しい設定を提案する。
設定の鍵は、どのインスタンスにラベルを付けるかを選択することである。
本稿では,未知の関係のクラスタを動的に発見する手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T06:55:02Z) - Comparison of machine learning models applied on anonymized data with
different techniques [0.0]
分類目的に現在使われている4つの古典的機械学習手法を,匿名化手法の関数として解析し,それぞれが選択したパラメータについて検討した。
これらのモデルの性能は、k-匿名性に対するkの値の変化と、$ell$-diversity、t-closeness、$delta$-disclosure privacyなどの追加ツールがよく知られたアダルトデータセットにデプロイされるときにも検討される。
論文 参考訳(メタデータ) (2023-05-12T12:34:07Z) - Smooth Anonymity for Sparse Graphs [69.1048938123063]
しかし、スパースデータセットを共有するという点では、差分プライバシーがプライバシのゴールドスタンダードとして浮上している。
本研究では、スムーズな$k$匿名性(スムーズな$k$匿名性)と、スムーズな$k$匿名性(スムーズな$k$匿名性)を提供する単純な大規模アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - Multi-View Clustering for Open Knowledge Base Canonicalization [9.976636206355394]
大規模オープンナレッジベース(OKB)における名詞句と関係句は標準化されていない。
CMVCは、知識の2つのビューを協調的に活用し、OKBを標準化するための新しい教師なしフレームワークである。
我々は,複数の実世界のOKBデータセットに対して,最先端の手法に対する広範な実験を通じて,我々のフレームワークの優位性を実証する。
論文 参考訳(メタデータ) (2022-06-22T14:23:16Z) - Implicit Sample Extension for Unsupervised Person Re-Identification [97.46045935897608]
クラスタリングは、時に異なる真のアイデンティティを混ぜ合わせたり、同じアイデンティティを2つ以上のサブクラスタに分割する。
本稿では,クラスタ境界周辺のサポートサンプルを生成するために,Implicit Sample Extension (OurWholeMethod)法を提案する。
提案手法の有効性を実証し,教師なしのRe-IDに対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-04-14T11:41:48Z) - rx-anon -- A Novel Approach on the De-Identification of Heterogeneous
Data based on a Modified Mondrian Algorithm [3.077802365568915]
rx-anonは、リレーショナル属性とテキスト属性からなる異種半構造化文書の匿名化手法である。
テキストから抽出したセンシティブな用語を構造化データにマップする。
データを一貫して匿名化するために、冗長な機密情報の概念を導入する。
論文 参考訳(メタデータ) (2021-05-18T21:50:12Z) - Joint Entity and Relation Canonicalization in Open Knowledge Graphs
using Variational Autoencoders [11.259587284318835]
オープンナレッジグラフの名詞句と関係句は正規化されず、冗長で曖昧な主語関係対象のトリプルが爆発する。
まず、名詞句と関係句の両方の埋め込み表現を生成し、次にクラスタリングアルゴリズムを使用して、埋め込みを機能としてグループ化します。
本研究では,組込みとクラスタ割り当ての両方をエンドツーエンドアプローチで学習する共同モデルであるCUVA(Canonicalizing Using Variational AutoEncoders)を提案する。
論文 参考訳(メタデータ) (2020-12-08T22:58:30Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。