論文の概要: Anonymous Learning via Look-Alike Clustering: A Precise Analysis of
Model Generalization
- arxiv url: http://arxiv.org/abs/2310.04015v3
- Date: Thu, 2 Nov 2023 02:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 16:45:53.490749
- Title: Anonymous Learning via Look-Alike Clustering: A Precise Analysis of
Model Generalization
- Title(参考訳): ルックライクなクラスタリングによる匿名学習:モデル一般化の高精度解析
- Authors: Adel Javanmard and Vahab Mirrokni
- Abstract要約: プライバシーを強化するための一般的なアプローチは、個々のデータではなく匿名データを使用してモデルをトレーニングすることである。
匿名クラスタセンターを用いたトレーニングモデルが一般化能力に与える影響について分析する。
ある種の高次元状態において、匿名クラスタセンターでのトレーニングは正規化として機能し、訓練されたモデルの一般化誤差を改善する。
- 参考スコア(独自算出の注目度): 18.03833857491361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While personalized recommendations systems have become increasingly popular,
ensuring user data protection remains a top concern in the development of these
learning systems. A common approach to enhancing privacy involves training
models using anonymous data rather than individual data. In this paper, we
explore a natural technique called \emph{look-alike clustering}, which involves
replacing sensitive features of individuals with the cluster's average values.
We provide a precise analysis of how training models using anonymous cluster
centers affects their generalization capabilities. We focus on an asymptotic
regime where the size of the training set grows in proportion to the features
dimension. Our analysis is based on the Convex Gaussian Minimax Theorem (CGMT)
and allows us to theoretically understand the role of different model
components on the generalization error. In addition, we demonstrate that in
certain high-dimensional regimes, training over anonymous cluster centers acts
as a regularization and improves generalization error of the trained models.
Finally, we corroborate our asymptotic theory with finite-sample numerical
experiments where we observe a perfect match when the sample size is only of
order of a few hundreds.
- Abstract(参考訳): パーソナライズされたレコメンデーションシステムはますます人気を博しているが、これらの学習システムの開発においてユーザーデータ保護が最大の関心事である。
プライバシを強化する一般的なアプローチは、個別のデータではなく匿名データを使用したトレーニングモデルである。
本稿では,クラスタの平均値に個人の特徴を置き換える,‘emph{look-alike clustering’と呼ばれる自然な手法について検討する。
匿名クラスタセンターを用いたトレーニングモデルが一般化能力にどのように影響するかを正確に分析する。
我々は,訓練集合の大きさが特徴次元に比例して増加する漸近的構造に注目した。
解析は Convex Gaussian Minimax Theorem (CGMT) に基づいており、一般化誤差における異なるモデル成分の役割を理論的に理解することができる。
さらに,特定の高次元環境において,匿名クラスタセンタでのトレーニングが正規化として作用し,訓練モデルの一般化誤差が向上することを示す。
最後に、サンプルサイズが数百のオーダーしかない場合に完全な一致を観測する有限サンプル数値実験によって漸近理論を補足する。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Self-Supervised Contrastive Graph Clustering Network via Structural Information Fusion [15.293684479404092]
CGCNと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,事前学習プロセスにコントラスト信号と深部構造情報を導入している。
本手法は,複数の実世界のグラフデータセットに対して実験的に検証されている。
論文 参考訳(メタデータ) (2024-08-08T09:49:26Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Understanding Generalization of Federated Learning via Stability:
Heterogeneity Matters [1.4502611532302039]
一般化性能は、現実世界のアプリケーションに適用された機械学習モデルを評価する上で重要な指標である。
一般化性能は、現実世界のアプリケーションに適用された機械学習モデルを評価する上で重要な指標である。
論文 参考訳(メタデータ) (2023-06-06T16:12:35Z) - FedCBO: Reaching Group Consensus in Clustered Federated Learning through
Consensus-based Optimization [1.911678487931003]
フェデレーション学習は、複数のユーザから学習モデルをトレーニングし、各ユーザが独自のデータセットを持ち、データのプライバシやコミュニケーション損失の制約に敏感な方法で統合することを目指している。
本稿では,コンセンサスに基づく最適化(CBO)のアイデアに触発された,グローバルでクラスタ化されたフェデレーション学習問題に対する新しい解決策を提案する。
我々の新しいCBO型法は、グループに不利な相互作用粒子のシステムに基づいている。
論文 参考訳(メタデータ) (2023-05-04T15:02:09Z) - Adaptive Personlization in Federated Learning for Highly Non-i.i.d. Data [37.667379000751325]
フェデレートラーニング(Federated Learning, FL)は、医療機関にグローバルモデルにおけるコラボレーションの見通しを提供する分散ラーニング手法である。
本研究では,FLの中間的半言語モデルを生成する適応階層クラスタリング手法について検討する。
本実験は, 分類精度の標準的なFL法と比較して, 不均質分布において有意な性能向上を示した。
論文 参考訳(メタデータ) (2022-07-07T17:25:04Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Novelty Detection in Sequential Data by Informed Clustering and Modeling [8.108571247838206]
正常なシーケンスをモデル化し、モデル予測から新しいシーケンスのずれを測定することで、新規性を検出することができる。
本稿では、離散シーケンスクラスタリングに最先端のビジュアル分析ツールを適用し、ドメインの専門家から情報クラスタを得る。
本手法は,3つの実世界のアプリケーションシナリオにおいて,離散シーケンスに対する最先端のノベルティ検出手法より優れる。
論文 参考訳(メタデータ) (2021-03-05T20:58:24Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。