論文の概要: Why Stable Learning Works? A Theory of Covariate Shift Generalization
- arxiv url: http://arxiv.org/abs/2111.02355v1
- Date: Wed, 3 Nov 2021 17:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 13:16:57.009568
- Title: Why Stable Learning Works? A Theory of Covariate Shift Generalization
- Title(参考訳): なぜ安定した学習がうまくいくのか?
共変量シフト一般化の理論
- Authors: Renzhe Xu, Peng Cui, Zheyan Shen, Xingxuan Zhang, Tong Zhang
- Abstract要約: 安定学習アルゴリズムは、共変量シフトの一般化を扱うための経験的効果を示している。
本稿では,安定学習アルゴリズムの理論的解析を特徴選択プロセスとして説明することによって,さらに一歩進める。
理想的な条件下では、安定学習アルゴリズムがこのセットの変数を識別できることを示す。
- 参考スコア(独自算出の注目度): 34.32816220736903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Covariate shift generalization, a typical case in out-of-distribution (OOD)
generalization, requires a good performance on the unknown testing
distribution, which varies from the accessible training distribution in the
form of covariate shift. Recently, stable learning algorithms have shown
empirical effectiveness to deal with covariate shift generalization on several
learning models involving regression algorithms and deep neural networks.
However, the theoretical explanations for such effectiveness are still missing.
In this paper, we take a step further towards the theoretical analysis of
stable learning algorithms by explaining them as feature selection processes.
We first specify a set of variables, named minimal stable variable set, that is
minimal and optimal to deal with covariate shift generalization for common loss
functions, including the mean squared loss and binary cross entropy loss. Then
we prove that under ideal conditions, stable learning algorithms could identify
the variables in this set. Further analysis on asymptotic properties and error
propagation are also provided. These theories shed light on why stable learning
works for covariate shift generalization.
- Abstract(参考訳): out-of-distribution (ood) 一般化の典型例であるcovariate shift generalizationでは、covariate shiftという形式でアクセス可能なトレーニング分布と異なる、未知のテストディストリビューションでの優れたパフォーマンスが求められている。
近年、安定学習アルゴリズムは、回帰アルゴリズムとディープニューラルネットワークを含むいくつかの学習モデルの共変シフト一般化を扱うための経験的有効性を示している。
しかし、そのような効果の理論的説明はいまだに欠けている。
本稿では,安定学習アルゴリズムの理論的解析を特徴選択プロセスとして説明することによって,さらに一歩進める。
まず、最小の安定変数集合と呼ばれる変数の集合を定義し、これは平均二乗損失や二項交叉エントロピー損失を含む共通損失関数の共変シフト一般化を扱うのに最適である。
そして、理想的な条件下では、安定学習アルゴリズムがこの集合の変数を識別できることを示す。
また、漸近特性および誤り伝播に関するさらなる分析も提供される。
これらの理論は、なぜ安定学習が共変量シフト一般化に働くのかを浮き彫りにした。
関連論文リスト
- High-Dimensional Kernel Methods under Covariate Shift: Data-Dependent Implicit Regularization [83.06112052443233]
本稿では,共変量シフト下での高次元におけるカーネルリッジの回帰について検討する。
バイアス分散分解により、再重み付け戦略が分散を減少させることができることを理論的に証明する。
偏見について,任意の偏見の正則化を解析し,偏見が正則化の異なる尺度で非常に異なる振る舞いをすることができることを示す。
論文 参考訳(メタデータ) (2024-06-05T12:03:27Z) - Towards a Unified Analysis of Kernel-based Methods Under Covariate Shift [18.240776405802205]
再生カーネルヒルベルト空間における一般非パラメトリック手法の統一解析を提案する。
本研究は, 損失関数ファミリーに属する一般損失について理論的に検討した。
この結果は,2乗損失を用いた文献の最適結果と一致する。
論文 参考訳(メタデータ) (2023-10-12T11:33:15Z) - Fluctuations, Bias, Variance & Ensemble of Learners: Exact Asymptotics
for Convex Losses in High-Dimension [25.711297863946193]
我々は、異なる、しかし相関のある特徴に基づいて訓練された一般化線形モデルの集合における揺らぎの研究の理論を開発する。
一般凸損失と高次元限界における正則化のための経験的リスク最小化器の結合分布の完全な記述を提供する。
論文 参考訳(メタデータ) (2022-01-31T17:44:58Z) - Covariate Shift in High-Dimensional Random Feature Regression [44.13449065077103]
共変量シフトは、堅牢な機械学習モデルの開発において重要な障害である。
現代の機械学習の文脈における理論的理解を示す。
論文 参考訳(メタデータ) (2021-11-16T05:23:28Z) - Bias-Variance Tradeoffs in Single-Sample Binary Gradient Estimators [100.58924375509659]
ストレートスルー (ST) 推定器はその単純さと効率性から人気を得た。
計算の複雑さを低く保ちながら、STよりも改善するいくつかの手法が提案された。
我々は、トレードオフを理解し、元来主張された特性を検証するために、これらの手法のバイアスとばらつきの理論解析を行う。
論文 参考訳(メタデータ) (2021-10-07T15:16:07Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Statistical optimality and stability of tangent transform algorithms in
logit models [6.9827388859232045]
我々は,データ生成過程の条件として,ロジカルオプティマによって引き起こされるリスクに対して,非漸近上界を導出する。
特に,データ生成過程の仮定なしにアルゴリズムの局所的変動を確立する。
我々は,大域収束が得られる半直交設計を含む特別な場合について検討する。
論文 参考訳(メタデータ) (2020-10-25T05:15:13Z) - A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。
予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-08T11:35:47Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。