論文の概要: rx-anon -- A Novel Approach on the De-Identification of Heterogeneous
Data based on a Modified Mondrian Algorithm
- arxiv url: http://arxiv.org/abs/2105.08842v1
- Date: Tue, 18 May 2021 21:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:38:19.822776
- Title: rx-anon -- A Novel Approach on the De-Identification of Heterogeneous
Data based on a Modified Mondrian Algorithm
- Title(参考訳): rx-anon -- 修正モンドリアンアルゴリズムに基づく異種データの復号化に関する新しいアプローチ
- Authors: Fabian Singhofer, Aygul Garifullina, Mathias Kern, Ansgar Scherp
- Abstract要約: rx-anonは、リレーショナル属性とテキスト属性からなる異種半構造化文書の匿名化手法である。
テキストから抽出したセンシティブな用語を構造化データにマップする。
データを一貫して匿名化するために、冗長な機密情報の概念を導入する。
- 参考スコア(独自算出の注目度): 3.077802365568915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional approaches for data anonymization consider relational data and
textual data independently. We propose rx-anon, an anonymization approach for
heterogeneous semi-structured documents composed of relational and textual
attributes. We map sensitive terms extracted from the text to the structured
data. This allows us to use concepts like k-anonymity to generate a joined,
privacy-preserved version of the heterogeneous data input. We introduce the
concept of redundant sensitive information to consistently anonymize the
heterogeneous data. To control the influence of anonymization over unstructured
textual data versus structured data attributes, we introduce a modified,
parameterized Mondrian algorithm. The parameter $\lambda$ allows to give
different weight on the relational and textual attributes during the
anonymization process. We evaluate our approach with two real-world datasets
using a Normalized Certainty Penalty score, adapted to the problem of jointly
anonymizing relational and textual data. The results show that our approach is
capable of reducing information loss by using the tuning parameter to control
the Mondrian partitioning while guaranteeing k-anonymity for relational
attributes as well as for sensitive terms. As rx-anon is a framework approach,
it can be reused and extended by other anonymization algorithms, privacy
models, and textual similarity metrics.
- Abstract(参考訳): データ匿名化の伝統的なアプローチは、関係データとテキストデータとは独立に考える。
本稿では,関係属性とテキスト属性からなる異種半構造化文書の匿名化手法であるrx-anonを提案する。
テキストから抽出したセンシティブな用語を構造化データにマップする。
これにより、k匿名性のような概念を使って、異種データ入力の結合されたプライバシー保護バージョンを生成することができます。
我々は,異種データを一貫して匿名化するために,冗長な機密情報の概念を導入する。
非構造化テキストデータと構造化データ属性との匿名化の影響を制御するために,修正されたパラメータ付きmondrianアルゴリズムを導入する。
パラメータ $\lambda$ は、匿名化プロセス中に関係属性とテキスト属性に異なる重みを与えることができる。
本手法は,リレーショナルデータとテキストデータの共同匿名化の問題に適応した正規化確実性ペナルティスコアを用いて,実世界の2つのデータセットを用いて評価する。
提案手法は,モンドリアン分割の制御にチューニングパラメータを用いることで情報損失を低減できることを示すとともに,関係属性やセンシティブな用語のk匿名性を保証する。
rx-anonはフレームワークアプローチであるため、他の匿名化アルゴリズム、プライバシモデル、テキスト類似度メトリクスによって再利用および拡張することができる。
関連論文リスト
- Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Text Attribute Control via Closed-Loop Disentanglement [72.2786244367634]
本稿では,コンテンツ保存性を高めつつ,属性のロバストな制御を実現するための新しい手法を提案する。
本稿では,半教師付きコントラスト学習法を用いて,潜在空間における属性のアンタングル化を促進する。
Yelp Serviceレビューデータセット、Amazon Product Reviewデータセット、GoEmotionsデータセットを含む3つのテキストデータセットの実験を行った。
論文 参考訳(メタデータ) (2023-12-01T01:26:38Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Fair mapping [0.0]
本稿では,保護されたグループの分布を選択対象に変換した新しい前処理手法を提案する。
我々はWasserstein GANおよびAttGANフレームワークの最近の成果を活用し、最適なデータポイントの転送を実現する。
提案手法は、データの解釈可能性を維持し、センシティブなグループを正確に定義することなく使用することができる。
論文 参考訳(メタデータ) (2022-09-01T17:31:27Z) - Unsupervised and self-adaptative techniques for cross-domain person
re-identification [82.54691433502335]
非重複カメラにおける人物再識別(ReID)は難しい課題である。
Unsupervised Domain Adaptation(UDA)は、ソースで訓練されたモデルから、IDラベルアノテーションなしでターゲットドメインへの機能学習適応を実行するため、有望な代替手段です。
本稿では,新しいオフライン戦略によって生成されたサンプルのトリプレットを利用する,UDAベースのReID手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:58:39Z) - Discriminative Noise Robust Sparse Orthogonal Label Regression-based
Domain Adaptation [6.61544170496402]
ドメイン適応(DA)は、ソースドメインから訓練された学習モデルがターゲットドメイン上でうまく一般化できるようにすることを目的としている。
本稿では,非教師付きDA手法,すなわち識別ノイズロバストスパースorthogonal Label Regressionに基づくドメイン適応を提案する。
論文 参考訳(メタデータ) (2021-01-09T07:10:13Z) - Anonymizing Sensor Data on the Edge: A Representation Learning and
Transformation Approach [4.920145245773581]
本稿では,データ難読化に有用な低次元表現を学習することで,ユーティリティとプライバシ損失のトレードオフを検討することを目的とする。
本稿では,時系列データを合成するための変分オートエンコーダの潜時空間における決定論的および確率的変換を提案する。
リソース制約のあるエッジデバイス上で,データをリアルタイムに匿名化できることを示す。
論文 参考訳(メタデータ) (2020-11-16T22:32:30Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Learning Flat Latent Manifolds with VAEs [16.725880610265378]
本稿では、ユークリッド計量がデータポイント間の類似性のプロキシとなる変分自動エンコーダのフレームワークの拡張を提案する。
我々は、変分オートエンコーダで一般的に使用されるコンパクトな以前のものを、最近発表されたより表現力のある階層型に置き換える。
提案手法は,ビデオ追跡ベンチマークを含む,さまざまなデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-02-12T09:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。