論文の概要: Prink: $k_s$-Anonymization for Streaming Data in Apache Flink
- arxiv url: http://arxiv.org/abs/2505.13153v1
- Date: Mon, 19 May 2025 14:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.64572
- Title: Prink: $k_s$-Anonymization for Streaming Data in Apache Flink
- Title(参考訳): Prink: Apache Flinkのデータストリーミングのための$k_s$-匿名化
- Authors: Philip Groneberg, Saskia Nuñez von Voigt, Thomas Janke, Louis Loechel, Karl Wolf, Elias Grünewald, Frank Pallas,
- Abstract要約: 我々は、現実世界のアプリケーションアーキテクチャにおけるks匿名化データストリームのための新しい概念であり、完全に実装されたプロトタイプであるPrinkを紹介する。
Prinkは、非数値(分類や階層的に一般化可能な)ストリーミングデータのセマンティックス対応ks匿名化を、情報損失最適化方式で初めて導入した。
- 参考スコア(独自算出の注目度): 0.6282171844772422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present Prink, a novel and practically applicable concept and fully implemented prototype for ks-anonymizing data streams in real-world application architectures. Building upon the pre-existing, yet rudimentary CASTLE scheme, Prink for the first time introduces semantics-aware ks-anonymization of non-numerical (such as categorical or hierarchically generalizable) streaming data in a information loss-optimized manner. In addition, it provides native integration into Apache Flink, one of the prevailing frameworks for enterprise-grade stream data processing in numerous application domains. Our contributions excel the previously established state of the art for the privacy guarantee-providing anonymization of streaming data in that they 1) allow to include non-numerical data in the anonymization process, 2) provide discrete datapoints instead of aggregates, thereby facilitating flexible data use, 3) are applicable in real-world system contexts with minimal integration efforts, and 4) are experimentally proven to raise acceptable performance overheads and information loss in realistic settings. With these characteristics, Prink provides an anonymization approach which is practically feasible for a broad variety of real-world, enterprise-grade stream processing applications and environments.
- Abstract(参考訳): 本稿では,実世界のアプリケーションアーキテクチャにおけるks匿名化のための新しい,実用的なコンセプトと完全に実装されたプロトタイプであるPrinkを提案する。
Prinkは、既存の初期のCASTLEスキームに基づいて、非数値的な(分類的または階層的に一般化可能な)ストリーミングデータのセマンティックス対応のks匿名化を、情報損失最適化方式で初めて導入した。
さらに、多くのアプリケーションドメインにおけるエンタープライズグレードのストリームデータ処理の一般的なフレームワークの1つであるApache Flinkへのネイティブ統合も提供する。
当社のコントリビューションは、これまで確立されていた、ストリーミングデータの匿名化によるプライバシー保証のための最先端技術を活用しています。
1) 匿名化プロセスに非数値データを含めることができる。
2)アグリゲーションの代わりに個別のデータポイントを提供し、フレキシブルなデータ利用を容易にします。
3) 統合作業を最小限に抑えた実世界のシステムコンテキストに適用できる。
4)は、現実的な設定で許容されるパフォーマンスオーバーヘッドと情報損失を増大させることが実験的に証明されている。
これらの特徴により、Prinkは、さまざまな実世界のエンタープライズグレードのストリーム処理アプリケーションや環境に対して、事実上実現可能な匿名化アプローチを提供する。
関連論文リスト
- From Past to Present: A Survey of Malicious URL Detection Techniques, Datasets and Code Repositories [3.323388021979584]
悪意のあるURLは、ユーザーを騙してプライベートデータを拡散させたり、ホストシステムに侵入するために有害なペイロードを配布することで、サイバーセキュリティエコシステムを絶えず脅かしている。
本稿では,従来のブラックリストから高度なディープラーニングアプローチまで,手法を体系的に分析する。
従来の調査とは違って,既存の研究を主要なデータモダリティに応じて分類する,新しいモダリティに基づく分類法を提案する。
論文 参考訳(メタデータ) (2025-04-23T06:23:18Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Causally Inspired Regularization Enables Domain General Representations [14.036422506623383]
異なるドメイン/ディストリビューション間で共有されるデータ生成プロセスを表す因果グラフが与えられた場合、十分なグラフで実装された条件付き独立性は、ドメイン一般(非スパージャ)の特徴表現を識別することができる。
本稿では,素早い特徴の事前知識(あるいはプロキシ)を伴わないドメイン汎用特徴表現の同定に十分であることを示す,正規化を伴う新しいフレームワークを提案する。
提案手法は、合成データと実世界のデータの両方に有効であり、平均および最悪のドメイン転送精度で、他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-04-25T01:33:55Z) - FedSIS: Federated Split Learning with Intermediate Representation
Sampling for Privacy-preserving Generalized Face Presentation Attack
Detection [4.1897081000881045]
目に見えないドメイン/アタックへの一般化の欠如は、FacePAD(face presentation attack detection)アルゴリズムのアキレスヒールである。
本研究では、プライバシ保護ドメインの一般化のために、中間表現サンプリング(FedSIS)を用いたFederated Split Learningと呼ばれる新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-20T11:49:12Z) - PS-FedGAN: An Efficient Federated Learning Framework Based on Partially
Shared Generative Adversarial Networks For Data Privacy [56.347786940414935]
分散計算のための効果的な学習パラダイムとして、フェデレートラーニング(FL)が登場した。
本研究は,部分的なGANモデル共有のみを必要とする新しいFLフレームワークを提案する。
PS-FedGANと名付けられたこの新しいフレームワークは、異種データ分散に対処するためのGANリリースおよびトレーニングメカニズムを強化する。
論文 参考訳(メタデータ) (2023-05-19T05:39:40Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - FedLAP-DP: Federated Learning by Sharing Differentially Private Loss Approximations [53.268801169075836]
我々は,フェデレーション学習のための新しいプライバシ保護手法であるFedLAP-DPを提案する。
公式なプライバシー分析は、FedLAP-DPが典型的な勾配共有方式と同じプライバシーコストを発生させることを示している。
提案手法は, 通常の勾配共有法に比べて高速な収束速度を示す。
論文 参考訳(メタデータ) (2023-02-02T12:56:46Z) - FV-UPatches: Enhancing Universality in Finger Vein Recognition [0.6299766708197883]
限られたデータで学習しながら一般化を実現するユニバーサルラーニングベースのフレームワークを提案する。
提案フレームワークは、他の静脈ベースの生体認証にも応用可能性を示す。
論文 参考訳(メタデータ) (2022-06-02T14:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。