論文の概要: Provable Training Set Debugging for Linear Regression
- arxiv url: http://arxiv.org/abs/2006.09009v2
- Date: Tue, 10 Aug 2021 03:42:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 20:03:16.668226
- Title: Provable Training Set Debugging for Linear Regression
- Title(参考訳): 線形回帰のための予測可能なトレーニングセットデバッグ
- Authors: Xiaomin Zhang, Xiaojin Zhu, Po-Ling Loh
- Abstract要約: まず、バグ点を特定するための一般的な統計アルゴリズムを定式化し、厳密な理論的保証を提供する。
次に、我々の一般理論の結果と、クリーンな点とバギーな点に対する推定器の依存性を説明するための2つのケーススタディを示す。
- 参考スコア(独自算出の注目度): 17.138864028618276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate problems in penalized $M$-estimation, inspired by applications
in machine learning debugging. Data are collected from two pools, one
containing data with possibly contaminated labels, and the other which is known
to contain only cleanly labeled points. We first formulate a general
statistical algorithm for identifying buggy points and provide rigorous
theoretical guarantees under the assumption that the data follow a linear
model. We then present two case studies to illustrate the results of our
general theory and the dependence of our estimator on clean versus buggy
points. We further propose an algorithm for tuning parameter selection of our
Lasso-based algorithm and provide corresponding theoretical guarantees.
Finally, we consider a two-person "game" played between a bug generator and a
debugger, where the debugger can augment the contaminated data set with cleanly
labeled versions of points in the original data pool. We establish a
theoretical result showing a sufficient condition under which the bug generator
can always fool the debugger. Nonetheless, we provide empirical results showing
that such a situation may not occur in practice, making it possible for natural
augmentation strategies combined with our Lasso debugging algorithm to succeed.
- Abstract(参考訳): ペナルタライズされた$m$-estimationの問題を,機械学習デバッグのアプリケーションから着想を得た。
データは2つのプールから収集され、1つは汚染された可能性のあるラベルを持つデータを含む。
まず,バギー点を同定するための一般統計アルゴリズムを定式化し,データが線形モデルに従うと仮定した厳密な理論保証を提供する。
次に、我々の一般理論の結果と、クリーンな点とバギーな点に対する推定器の依存性を説明するための2つのケーススタディを示す。
さらに,本アルゴリズムのパラメータ選択をチューニングし,それに対応する理論的保証を提供するアルゴリズムを提案する。
最後に、デバッガが元のデータプール内のポイントのクリーンなラベル付きバージョンで汚染されたデータセットを拡張できる、バグジェネレータとデバッガの間で行われる2人の“ゲーム”について検討する。
バグジェネレータが常にデバッガを騙すことができる十分な条件を示す理論的結果を確立する。
それでも我々は,そのような状況が実際に発生しない可能性を示す実証的な結果を提供し,lassoデバッグアルゴリズムを組み合わせることで,自然な拡張戦略を実現できる。
関連論文リスト
- Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Best-Effort Adaptation [62.00856290846247]
本稿では, 試料再重み付け法に関する新しい理論的解析を行い, 試料再重み付け法を一様に保持する境界について述べる。
これらの境界が、我々が詳細に議論する学習アルゴリズムの設計を導く方法を示す。
本稿では,本アルゴリズムの有効性を実証する一連の実験結果について報告する。
論文 参考訳(メタデータ) (2023-05-10T00:09:07Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - Regression with Label Differential Privacy [64.21020761920322]
与えられた回帰損失関数の下で最適なラベルDPランダム化機構を導出する。
我々は、最適メカニズムが「ビンのランダム化応答」の形をとることを証明した。
論文 参考訳(メタデータ) (2022-12-12T17:41:32Z) - Debugging using Orthogonal Gradient Descent [7.766921168069532]
部分的に欠陥があるトレーニングされたモデルを考えると、モデルをスクラッチからトレーニングすることなく、その振る舞いを修正できますか?
言い換えれば、ニューラルネットワークは、数学的モデルと標準的なコンピュータコードのバグに対処する方法に似ていますか?
論文 参考訳(メタデータ) (2022-06-17T00:03:54Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Improving Generalization of Deep Fault Detection Models in the Presence
of Mislabeled Data [1.3535770763481902]
ラベルノイズを用いた頑健なトレーニングのための新しい2段階フレームワークを提案する。
最初のステップでは、仮説空間の更新に基づいて、外れ値(ラベルのつかないサンプルを含む)を識別する。
第2のステップでは、識別されたアウトレイラとデータ拡張技術に基づいて、トレーニングデータを修正するための異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-30T12:33:25Z) - Causal Bandits without prior knowledge using separating sets [3.1000291317725]
カウサル・バンディット(Causal Bandit)は、エージェントがシーケンシャルな意思決定プロセスにおいて最良のアクションを識別しなければならない古典的なバンディット問題の変種である。
これまでの文献で提案されている手法は、完全な因果グラフの正確な事前知識に依存している。
我々は、必ずしも因果知識に依存しない新たな因果バンディットアルゴリズムを定式化する。
論文 参考訳(メタデータ) (2020-09-16T20:08:03Z) - Provable Training of a ReLU Gate with an Iterative Non-Gradient
Algorithm [0.7614628596146599]
我々は,未調査体制下での1つのReLUゲートのトレーニングについて,証明可能な保証を示す。
我々は,真のラベルに対する(オンライン)データポゾン攻撃の下で,真のラベル生成パラメータを近似的に復元することを示す。
我々の保証は最悪の場合ほぼ最適であることが示され、真の重量回復の精度は攻撃の確率と大きさの増大とともに優雅に低下する。
論文 参考訳(メタデータ) (2020-05-08T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。