論文の概要: Statistical Unlearning of Distributions: A Hypothesis Testing Approach
- arxiv url: http://arxiv.org/abs/2605.16645v1
- Date: Fri, 15 May 2026 21:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.89094
- Title: Statistical Unlearning of Distributions: A Hypothesis Testing Approach
- Title(参考訳): 分布の統計的アンラーニング:仮説テストアプローチ
- Authors: Aaradhya Pandey, Sanjeev Kulkarni,
- Abstract要約: 本稿では,確率分布としてドメインをモデル化した分布的アンラーニングの統計的枠組みを提案する。
所望の領域と不要領域の編集データの仮説テストを用いてこれを定式化する。
マルチモーダルな未学習領域における分布的未学習の振る舞いを記述した構成規則を実証する。
- 参考スコア(独自算出の注目度): 0.5352699766206808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning systems increasingly face requirements to forget not only individual data points, but entire domains of information, such as toxic language, copyrighted corpora, or demographic biases. This raises a fundamental dilemma of statistical-computational tradeoffs: removing all samples from an unwanted domain may be computationally prohibitive, while randomly removing a subset may not provide distribution-level statistical guarantees. We propose a statistical framework for distributional unlearning, in which domains are modeled as probability distributions, and the goal is to remove a carefully chosen subset of samples that reduces the effect of an unwanted distribution while preserving performance on a desired one. We formalize this using a hypothesis test of the edited data with the desired and unwanted domains, leading to an interpretable and robust criterion for selecting samples to remove. Within this statistical framework, we characterize the fundamental region of the allowable edited data distributions and the removal-preservation Pareto frontier for a broad class of distribution families. This includes parametric families such as shifted Gaussians of arbitrary dimension, a one-dimensional location family with log-concave noise, and the one-dimensional Poisson family. It also includes nonparametric families such as the Gaussian white noise model, a canonical model for nonparametric regression. We prove composition rules that describe how distributional unlearning behaves across multimodal unwanted domains, and introduce a central-limit behavior for the removal-preservation baselines when composing a large number of such families. Finally, we provide finite sample guarantees by providing Pareto frontiers for some selection algorithms, and observe an information-computation gap.
- Abstract(参考訳): 機械学習システムは、個々のデータポイントだけでなく、有害な言語、著作権付きコーパス、人口統計バイアスといった情報領域全体を忘れる必要性に直面している。
これは統計計算のトレードオフの基本的なジレンマを提起する: 望ましくない領域から全てのサンプルを取り除くことは、計算的に禁止されるが、サブセットをランダムに除去することは、分布レベルの統計的保証を提供しない。
本研究では,領域を確率分布としてモデル化した分布未学習の統計的枠組みを提案する。その目的は,望ましくない分布の効果を低減し,所望の性能を維持しつつ,慎重に選択されたサンプルのサブセットを除去することである。
編集データと所望の領域との仮説テストを用いてこれを形式化し、除去するサンプルを選択するための解釈可能で堅牢な基準を導いた。
この統計的枠組みでは、許容可能な編集可能なデータ分布の基本領域と、幅広い種類の分散系に対する削除保存パレートフロンティアを特徴付ける。
これには、任意の次元のシフトガウス族、対数曲率を持つ一次元の位置族、一次元ポアソン族などのパラメトリック族が含まれる。
また、非パラメトリック回帰のための標準モデルであるガウスホワイトノイズモデルのような非パラメトリックな族も含んでいる。
本研究では,多モード非学習領域における分布的非学習の振る舞いを記述した構成規則を証明し,そのような家族を多数構成する場合に,除去保存ベースラインの中央限動作を導入する。
最後に、いくつかの選択アルゴリズムに対してParetoフロンティアを提供し、情報計算ギャップを観測することによって、有限サンプル保証を提供する。
関連論文リスト
- VAE-Inf: A statistically interpretable generative paradigm for imbalanced classification [8.677199689027772]
生成的モデリングと識別的分類のギャップを埋める2段階の枠組みを提案する。
推論のために、自然な仮説テストの解釈を受け入れるプロジェクションベースのスコアを導入する。
様々な実世界のベンチマークの実験は、我々のフレームワークが他のアプローチと競合する性能を達成していることを示している。
論文 参考訳(メタデータ) (2026-04-28T07:50:56Z) - Towards Generalizable Deepfake Detection via Real Distribution Bias Correction [62.89674593681203]
本稿では,2つの主要コンポーネントからなるReal Distribution Bias Correction(RDBC)フレームワークを紹介する。
RDBCは、ドメイン内およびクロスドメインのディープフェイク検出の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-14T16:11:00Z) - Distributional Machine Unlearning via Selective Data Removal [37.205511534444966]
ドメインの統計的影響は、しばしばデータサンプルの小さなサブセットに集中している。
所望のディストリビューションを保存しながら、不要なディストリビューションを忘れるバランスをとる小さなサブセットを選択するためのフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T20:21:23Z) - Anomaly Detection Under Uncertainty Using Distributionally Robust
Optimization Approach [0.9217021281095907]
異常検出は、大多数のパターンに従わないデータポイントを見つける問題として定義される。
1クラスのサポートベクトルマシン(SVM)メソッドは、通常のデータポイントと異常を区別するための決定境界を見つけることを目的としている。
誤分類の確率が低い分布的に頑健な確率制約モデルを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:13:22Z) - Correcting Underrepresentation and Intersectional Bias for Classification [49.1574468325115]
我々は、表現不足のバイアスによって破損したデータから学習する問題を考察する。
偏りのないデータの少ない場合、グループワイドのドロップアウト率を効率的に推定できることが示される。
本アルゴリズムは,有限VC次元のモデルクラスに対して,効率的な学習を可能にする。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z) - Data thinning for convolution-closed distributions [2.299914829977005]
本稿では,観測を2つ以上の独立した部分に分割する手法であるデータ薄型化を提案する。
教師なし学習手法の結果の検証には,データの薄化が有効であることを示す。
論文 参考訳(メタデータ) (2023-01-18T02:47:41Z) - A Prototype-Oriented Framework for Unsupervised Domain Adaptation [52.25537670028037]
メモリと計算効率のよい確率的フレームワークを提供し、クラスプロトタイプを抽出し、ターゲットとなる特徴をそれらと整合させる。
本稿では,単一ソース,マルチソース,クラス不均衡,ソースプライベートドメイン適応など,幅広いシナリオにおいて,本手法の汎用性を実証する。
論文 参考訳(メタデータ) (2021-10-22T19:23:22Z) - Fair Densities via Boosting the Sufficient Statistics of Exponential
Families [72.34223801798422]
フェアネスのためのデータ前処理にブースティングアルゴリズムを導入する。
私たちのアプローチは、最小限の公平性を確保しながら、より良いデータフィッティングへとシフトします。
実世界のデータに結果の質を示す実験結果が提示される。
論文 参考訳(メタデータ) (2020-12-01T00:49:17Z) - Identification of Probability weighted ARX models with arbitrary domains [75.91002178647165]
PieceWise Affineモデルは、ハイブリッドシステムの他のクラスに対する普遍近似、局所線型性、同値性を保証する。
本研究では,任意の領域を持つ固有入力モデル(NPWARX)を用いたPieceWise Auto Regressiveの同定に着目する。
このアーキテクチャは、機械学習の分野で開発されたMixture of Expertの概念に従って考案された。
論文 参考訳(メタデータ) (2020-09-29T12:50:33Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。