論文の概要: Private Data Imputation
- arxiv url: http://arxiv.org/abs/2511.20832v1
- Date: Tue, 25 Nov 2025 20:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.850046
- Title: Private Data Imputation
- Title(参考訳): プライベートデータ計算
- Authors: Abdelkarim Kati, Florian Kerschbaum, Marina Blanton,
- Abstract要約: 既存のデータ計算手法は、プライバシ保護を廃止したデータレンダリングのプライバシを侵害する。
プライベートデータ計算のための最初の最適化プロトコルを提示する。
我々のプロトコルは非常に効率的で、垂直分割データの場合2.4秒、水平分割データの場合8.4秒で実行されます。
- 参考スコア(独自算出の注目度): 18.01735734002882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data imputation is an important data preparation task where the data analyst replaces missing or erroneous values to increase the expected accuracy of downstream analyses. The accuracy improvement of data imputation extends to private data analyses across distributed databases. However, existing data imputation methods violate the privacy of the data rendering the privacy protection in the downstream analyses obsolete. We conclude that private data analysis requires private data imputation. In this paper, we present the first optimized protocols for private data imputation. We consider the case of horizontally and vertically split data sets. Our optimization aims to reduce most of the computation to private set intersection (or at least oblivious programmable pseudo-random function) protocols which can be very efficiently computed. We show that private data imputation has -- on average across all evaluated datasets -- an accuracy advantage of 20\% in case of vertically split data and 5\% in case of horizontally split data over imputing data locally. In case of the worst data split we observed that imputing using our method resulted in an increase of up to 32.7 times in the quality of imputation over the vertically split data and 3.4 times in case of horizontally split data. Our protocols are very efficient and run in 2.4 seconds in case of vertically split data and 8.4 seconds in case of horizontally split data for 100,000 records evaluated in the 10 Gbps network setting, performing one data imputation.
- Abstract(参考訳): データ計算は、ダウンストリーム分析の予測精度を高めるために、データアナリストが欠落または誤値を置き換える重要なデータ準備タスクである。
データ計算の精度の向上は、分散データベース間のプライベートデータ分析にまで拡張される。
しかし、既存のデータ計算手法は、下流分析におけるプライバシー保護を時代遅れにするデータのプライバシーに反する。
我々は、プライベートデータ分析にはプライベートデータ計算が必要であると結論づける。
本稿では,プライベートデータ計算のための最初の最適化プロトコルを提案する。
本稿では,水平および垂直に分割したデータセットについて考察する。
我々の最適化は、計算のほとんどを、非常に効率的に計算できるプライベートセットの交叉プロトコル(または、少なくとも難解なプログラマブル擬似ランダム関数)に還元することを目的としている。
これは、垂直に分割されたデータの場合の精度が20 %、局所的に命令されたデータに対して水平に分割されたデータの場合の精度が5 %であることを示している。
その結果, 水平分割データでは, 垂直分割データよりも最大32.7倍, 水平分割データでは3.4倍の計算精度が得られた。
我々のプロトコルは非常に効率的で、垂直分割データの場合2.4秒、水平分割データの場合8.4秒で10Gbpsのネットワーク設定で評価され、1つのデータ計算を行う。
関連論文リスト
- DataMIL: Selecting Data for Robot Imitation Learning with Datamodels [77.48472034791213]
データモデルパラダイムに基づいて構築されたポリシー駆動型データ選択フレームワークであるDataMILを紹介する。
品質の概念を使ってデータをフィルタリングする標準的なプラクティスとは異なり、DataMILはタスクの成功のためにデータ選択を直接最適化する。
我々は60以上のシミュレーションと実世界の操作タスクのスイートに対して,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-05-14T17:55:10Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Feature Selection from Differentially Private Correlations [35.187113265093615]
高次元回帰はデータセット内の個々のデータポイントに関する情報をリークすることができる。
相関に基づく順序統計を用いて、データセットから重要な特徴を選択し、それらを民営化する。
提案手法は,多くのデータセット上でのプライベートな特徴選択において,確立されたベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-08-20T13:54:07Z) - Private Approximate Query over Horizontal Data Federation [0.0]
既存のアプローチは、プライバシを改善する暗号に頼っているが、クエリ応答時間を犠牲にしている。
本稿では,データ分散を意識したオンラインサンプリング手法を考案し,レンジクエリの実行を高速化する手法を提案する。
我々のソリューションは、基本的な非セキュアなソリューションよりも最大8倍高速な処理を提供できる。
論文 参考訳(メタデータ) (2024-06-17T11:19:58Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - Distributed sequential federated learning [0.0]
ローカルデータを解析することで,価値ある情報を効率的に効果的に集約するデータ駆動手法を開発した。
我々は、シミュレーションデータの数値的研究と、メキシコの32の病院から収集されたCOVID-19データへの応用を用いている。
論文 参考訳(メタデータ) (2023-01-31T21:20:45Z) - A Critical Overview of Privacy-Preserving Approaches for Collaborative
Forecasting [0.0]
異なるデータ所有者間の協力は、予測品質の改善につながる可能性がある。
ビジネス上の競争要因と個人データ保護の問題から、データ所有者はデータの共有を望まないかもしれない。
本稿では、現状を解析し、データプライバシを保証する既存の方法の欠点をいくつか明らかにする。
論文 参考訳(メタデータ) (2020-04-20T20:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。