論文の概要: Minimax rate of consistency for linear models with missing values
- arxiv url: http://arxiv.org/abs/2202.01463v1
- Date: Thu, 3 Feb 2022 08:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 13:27:36.729221
- Title: Minimax rate of consistency for linear models with missing values
- Title(参考訳): 欠損値を持つ線形モデルの最小値整合率
- Authors: Alexis Ayme (LPSM (UMR\_8001)), Claire Boyer (LPSM (UMR\_8001),
MOKAPLAN), Aymeric Dieuleveut (CMAP), Erwan Scornet (CMAP)
- Abstract要約: 多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。
本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing values arise in most real-world data sets due to the aggregation of
multiple sources and intrinsically missing information (sensor failure,
unanswered questions in surveys...). In fact, the very nature of missing values
usually prevents us from running standard learning algorithms. In this paper,
we focus on the extensively-studied linear models, but in presence of missing
values, which turns out to be quite a challenging task. Indeed, the Bayes rule
can be decomposed as a sum of predictors corresponding to each missing pattern.
This eventually requires to solve a number of learning tasks, exponential in
the number of input features, which makes predictions impossible for current
real-world datasets. First, we propose a rigorous setting to analyze a
least-square type estimator and establish a bound on the excess risk which
increases exponentially in the dimension. Consequently, we leverage the missing
data distribution to propose a new algorithm, andderive associated adaptive
risk bounds that turn out to be minimax optimal. Numerical experiments
highlight the benefits of our method compared to state-of-the-art algorithms
used for predictions with missing values.
- Abstract(参考訳): 欠落した値は、多くの現実世界のデータセットにおいて、複数のソースと本質的に欠落した情報(センサ障害、サーベイにおける未解決の質問)の集約によって生じる。
実際、値の欠如という性質は、通常、標準的な学習アルゴリズムの実行を妨げます。
本稿では,広く研究されている線形モデルに焦点をあてるが,欠落する値が存在する場合,非常に難しい課題であることが判明した。
実際、ベイズ則は、各欠落パターンに対応する予測子の和として分解することができる。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
まず,最小二乗型推定器を解析し,その次元で指数関数的に増加する過剰なリスクのバウンドを確立するための厳密な設定を提案する。
その結果,不足するデータ分布を利用して,ミニマックス最適となる適応的リスク境界を導出する新しいアルゴリズムを提案する。
数値実験では,値が不足する予測に使用される最先端アルゴリズムと比較して,この手法の利点を強調する。
関連論文リスト
- Probabilistic Imputation for Time-series Classification with Missing
Data [17.956329906475084]
時系列データを欠落した値で分類する新しいフレームワークを提案する。
我々の深層生成モデル部分は、欠落した値を複数の可算的な方法で解釈するように訓練されている。
分類部は、インプットされた不足値とともに時系列データを取り込み、信号を分類する。
論文 参考訳(メタデータ) (2023-08-13T10:04:13Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Greedy structure learning from data that contains systematic missing
values [13.088541054366527]
欠落した値を含むデータから学ぶことは、多くの領域でよくある現象である。
比較的少数のベイジアンネットワーク構造学習アルゴリズムが欠落データの原因となっている。
本稿では,2対の削除と逆確率重み付けを利用したグリージー検索構造学習の3つの変種について述べる。
論文 参考訳(メタデータ) (2021-07-09T02:56:44Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - NeuMiss networks: differentiable programming for supervised learning
with missing values [0.0]
線形性仮定の下で最適予測器の解析形式を導出する。
我々はNeuMissネットワークという新しい原則アーキテクチャを提案する。
パラメータの数と、欠落したデータパターンの数に依存しない計算複雑性の両方で、予測精度が良い。
論文 参考訳(メタデータ) (2020-07-03T11:42:25Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Matrix Completion with Quantified Uncertainty through Low Rank Gaussian
Copula [30.84155327760468]
本稿では,不確かさを定量化した値計算の欠如に対する枠組みを提案する。
モデルに適合するために必要な時間は、データセット内の行数や列数と線形にスケールする。
実験結果から,本手法は様々な種類のデータに対して最先端の計算精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-06-18T19:51:42Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - On the consistency of supervised learning with missing values [15.666860186278782]
多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
本研究では,学習前の平均値など,一定値が得られない場合に一定であることを示す。
論文 参考訳(メタデータ) (2019-02-19T07:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。