論文の概要: Learning from Anonymized and Incomplete Tabular Data
- arxiv url: http://arxiv.org/abs/2602.01217v1
- Date: Sun, 01 Feb 2026 13:18:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.665424
- Title: Learning from Anonymized and Incomplete Tabular Data
- Title(参考訳): 匿名化と不完全な語彙データからの学習
- Authors: Lucas Lange, Adrian Böttinger, Victor Christen, Anushka Vidanage, Peter Christen, Erhard Rahm,
- Abstract要約: ユーザ主導のプライバシにより、個人はデータの共有する粒度を制御できる。
元の、一般化された、そして欠落した値を混ぜたデータセットは、機械学習に挑戦する。
異種匿名化を考慮した新しいデータ変換手法を提案する。
- 参考スコア(独自算出の注目度): 2.8026354138147513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User-driven privacy allows individuals to control whether and at what granularity their data is shared, leading to datasets that mix original, generalized, and missing values within the same records and attributes. While such representations are intuitive for privacy, they pose challenges for machine learning, which typically treats non-original values as new categories or as missing, thereby discarding generalization semantics. For learning from such tabular data, we propose novel data transformation strategies that account for heterogeneous anonymization and evaluate them alongside standard imputation and LLM-based approaches. We employ multiple datasets, privacy configurations, and deployment scenarios, demonstrating that our method reliably regains utility. Our results show that generalized values are preferable to pure suppression, that the best data preparation strategy depends on the scenario, and that consistent data representations are crucial for maintaining downstream utility. Overall, our findings highlight that effective learning is tied to the appropriate handling of anonymized values.
- Abstract(参考訳): ユーザ主導のプライバシにより、個人はデータの共有する粒度を制御でき、それによって、元の値、一般化された値、欠落した値が同じレコードや属性に混在するデータセットが生成される。
このような表現はプライバシーには直感的だが、機械学習には問題があり、非オリジナルな値を新しいカテゴリとして、あるいは欠落として扱い、一般化の意味論を捨てる。
このような表形式のデータから学習するために、異種匿名化を考慮した新しいデータ変換戦略を提案し、標準計算やLLMベースのアプローチとともに評価する。
複数のデータセット、プライバシ設定、デプロイメントシナリオを採用して、メソッドが有効性を確実に回復することを示す。
以上の結果から、一般化された値は純粋な抑圧よりも望ましいこと、最良のデータ準備戦略がシナリオに依存していること、そして、一貫したデータ表現が下流ユーティリティの維持に不可欠であることが示唆された。
全体として,実効学習は匿名化値の適切な処理に結びついていることが示唆された。
関連論文リスト
- Learning More with Less: A Generalizable, Self-Supervised Framework for Privacy-Preserving Capacity Estimation with EV Charging Data [84.37348569981307]
自己教師付き事前学習に基づく第一種能力推定モデルを提案する。
我々のモデルは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-05T08:58:35Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。
難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-09-12T16:39:41Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - SPEED: Secure, PrivatE, and Efficient Deep learning [2.283665431721732]
私たちは、強力なプライバシー制約に対処できるディープラーニングフレームワークを導入します。
協調学習、差分プライバシー、同型暗号化に基づいて、提案手法は最先端技術に進化する。
論文 参考訳(メタデータ) (2020-06-16T19:31:52Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Federating Recommendations Using Differentially Private Prototypes [16.29544153550663]
生データを収集せずにグローバルおよびローカルなプライベートモデルを学習するための新しいフェデレーションアプローチを提案する。
通信を2ラウンドだけ必要とすることで、通信コストを削減し、過剰なプライバシー損失を回避することができます。
本稿では,グローバルモデルの局所的適応により,集中行列分解に基づくレコメンデータシステムモデルよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-03-01T22:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。