論文の概要: First Steps Toward Understanding the Extrapolation of Nonlinear Models
to Unseen Domains
- arxiv url: http://arxiv.org/abs/2211.11719v1
- Date: Mon, 21 Nov 2022 18:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 18:47:48.149176
- Title: First Steps Toward Understanding the Extrapolation of Nonlinear Models
to Unseen Domains
- Title(参考訳): 非線形モデルの未知領域への外挿理解への第一歩
- Authors: Kefan Dong, Tengyu Ma
- Abstract要約: 本稿では,構造的領域シフトに対する非線形モデルの外挿を解析するための最初のステップについて述べる。
我々は、$f(x)=sum f_i(x_i)$という形の非線形モデルの族が、目に見えない分布に外挿可能であることを証明した。
- 参考スコア(独自算出の注目度): 35.76184529520015
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Real-world machine learning applications often involve deploying neural
networks to domains that are not seen in the training time. Hence, we need to
understand the extrapolation of nonlinear models -- under what conditions on
the distributions and function class, models can be guaranteed to extrapolate
to new test distributions. The question is very challenging because even
two-layer neural networks cannot be guaranteed to extrapolate outside the
support of the training distribution without further assumptions on the domain
shift. This paper makes some initial steps towards analyzing the extrapolation
of nonlinear models for structured domain shift. We primarily consider settings
where the marginal distribution of each coordinate of the data (or subset of
coordinates) do not shift significantly across the training and test
distributions, but the joint distribution may have a much bigger shift. We
prove that the family of nonlinear models of the form $f(x)=\sum f_i(x_i)$,
where $f_i$ is an arbitrary function on the subset of features $x_i$, can
extrapolate to unseen distributions, if the covariance of the features is
well-conditioned. To the best of our knowledge, this is the first result that
goes beyond linear models and the bounded density ratio assumption, even though
the assumptions on the distribution shift and function class are stylized.
- Abstract(参考訳): 現実世界の機械学習アプリケーションは、トレーニング時に見えないドメインにニューラルネットワークをデプロイすることが多い。
したがって、非線形モデルの外挿 -- 分布と関数クラスの条件の下では、モデルが新しいテスト分布に外挿することを保証できる -- を理解する必要がある。
なぜなら、2層ニューラルネットワークでさえ、ドメインシフトに関するさらなる仮定なしに、トレーニングディストリビューションのサポートの外で外挿することを保証できないからである。
本稿では,構造化領域シフトに対する非線形モデルの外挿解析のための初期ステップについて述べる。
主に、データの各座標(または座標のサブセット)の限界分布がトレーニングとテスト分布の間で大きくシフトしないような設定を検討するが、ジョイント分布ははるかに大きなシフトを持つ可能性がある。
f(x)=\sum f_i(x_i)$, ここで、$f_i$ は機能の部分集合上の任意の関数であり、特徴の共分散が良く条件付けされている場合、非知覚分布に外挿可能であることを証明する。
私たちの知る限りでは、分布シフトと関数クラスの仮定が定式化されているにもかかわらず、これは線形モデルと有界密度比の仮定を超えた最初の結果である。
関連論文リスト
- Universality in Transfer Learning for Linear Models [18.427215139020625]
回帰モデルと二分分類モデルの両方を対象とした線形モデルにおける伝達学習の問題点について検討する。
我々は、厳密かつ厳密な分析を行い、事前訓練されたモデルと微調整されたモデルに対する一般化誤差(回帰)と分類誤差(二分分類)を関連付ける。
論文 参考訳(メタデータ) (2024-10-03T03:09:09Z) - Robust Generative Learning with Lipschitz-Regularized $α$-Divergences Allows Minimal Assumptions on Target Distributions [12.19634962193403]
本稿では,Lipschitz-regularized $alpha$-divergencesの生成モデルにおける目的関数としてのロバスト性を示す。
GANや勾配流などの生成モデルの安定な訓練に不可欠な変分微分の存在と有限性を証明する。
数値実験により、Lipschitz-regularized $alpha$-divergencesを利用した生成モデルは、様々な困難なシナリオで安定して分布を学習できることが確認された。
論文 参考訳(メタデータ) (2024-05-22T19:58:13Z) - Diffusion models for probabilistic programming [56.47577824219207]
拡散モデル変分推論(DMVI)は確率型プログラミング言語(PPL)における自動近似推論手法である
DMVIは実装が容易で、例えば正規化フローを用いた変分推論の欠点を伴わずに、PPLでヘイズルフリー推論が可能であり、基礎となるニューラルネットワークモデルに制約を課さない。
論文 参考訳(メタデータ) (2023-11-01T12:17:05Z) - Out-Of-Domain Unlabeled Data Improves Generalization [0.7589678255312519]
本稿では,ラベルなしデータを半教師付き分類問題に組み込む新しい枠組みを提案する。
ラベルのないサンプルは一般化ギャップを狭めるために利用できることを示す。
我々は、さまざまな合成および実世界のデータセットで実施された実験を通じて、我々の主張を検証する。
論文 参考訳(メタデータ) (2023-09-29T02:00:03Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - On the detrimental effect of invariances in the likelihood for
variational inference [21.912271882110986]
変分ベイズ後部推論は、トラクタビリティを確保するために平均場パラメトリゼーションのような近似を単純化する必要があることが多い。
これまでの研究は、ベイズニューラルネットワークの変動平均場近似と、小さなデータセットや大きなモデルサイズの場合の不適合を関連付けてきた。
論文 参考訳(メタデータ) (2022-09-15T09:13:30Z) - Diffusion models as plug-and-play priors [98.16404662526101]
我々は、事前の$p(mathbfx)$と補助的な制約である$c(mathbfx,mathbfy)$からなるモデルにおいて、高次元データ$mathbfx$を推論する問題を考える。
拡散モデルの構造は,異なるノイズ量に富んだ定性デノナイジングネットワークを通じて,微分を反復することで近似推論を行うことができる。
論文 参考訳(メタデータ) (2022-06-17T21:11:36Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - Why do classifier accuracies show linear trends under distribution
shift? [58.40438263312526]
あるデータ分布上のモデルの精度は、別の分布上の精度のほぼ線形関数である。
2つのモデルが予測で一致する確率は、精度レベルだけで推測できるものよりも高いと仮定します。
分布シフトの大きさが大きければ, 2 つの分布のモデルを評価する場合, 線形傾向が生じなければならない。
論文 参考訳(メタデータ) (2020-12-31T07:24:30Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。