論文の概要: Over-parameterization: A Necessary Condition for Models that Extrapolate
- arxiv url: http://arxiv.org/abs/2203.10447v1
- Date: Sun, 20 Mar 2022 03:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 18:44:22.369838
- Title: Over-parameterization: A Necessary Condition for Models that Extrapolate
- Title(参考訳): 過パラメータ化:外挿するモデルに必要な条件
- Authors: Roozbeh Yousefzadeh
- Abstract要約: 本研究では, モデルが訓練セットの凸殻の外側を外挿する能力を持つためには, オーバーパラメータ化を必須条件として検討する。
ドメインを分割し、各パーティションにクラスを割り当てる分類モデルを検討する。
本研究では,画像と非画像の両方において,データセットの幾何学に関する実証的証拠を提示し,モデルによる外挿の程度について考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study over-parameterization as a necessary condition for
having the ability for the models to extrapolate outside the convex hull of
training set. We specifically, consider classification models, e.g., image
classification and other applications of deep learning. Such models are
classification functions that partition their domain and assign a class to each
partition \cite{strang2019linear}. Partitions are defined by decision
boundaries and so is the classification model/function. Convex hull of training
set may occupy only a subset of the domain, but trained model may partition the
entire domain and not just the convex hull of training set. This is important
because many of the testing samples may be outside the convex hull of training
set and the way in which a model partitions its domain outside the convex hull
would be influential in its generalization. Using approximation theory, we
prove that over-parameterization is a necessary condition for having control
over the partitioning of the domain outside the convex hull of training set. We
also propose a more clear definition for the notion of over-parametrization
based on the learning task and the training set at hand. We present empirical
evidence about geometry of datasets, both image and non-image, to provide
insights about the extent of extrapolation performed by the models. We consider
a 64-dimensional feature space learned by a ResNet model and investigate the
geometric arrangements of convex hulls and decision boundaries in that space.
We also formalize the notion of extrapolation and relate it to the scope of the
model. Finally, we review the rich extrapolation literature in pure and applied
mathematics, e.g., the Whitney's Extension Problem, and place our theory in
that context.
- Abstract(参考訳): 本研究では,トレーニングセットの凸殻の外側に模型を外挿する能力を持つためには,過パラメータ化を必要条件として検討する。
具体的には,画像分類やディープラーニングの応用など,分類モデルについて検討する。
そのようなモデルは、ドメインを分割し、各パーティション \cite{strang2019linear} にクラスを割り当てる分類関数である。
分割は決定境界によって定義され、分類モデル/関数も同様である。
訓練セットの凸船体はドメインのサブセットのみを占有するが、訓練されたモデルは訓練セットの凸船体だけでなく、領域全体を分割することができる。
これは、多くのテストサンプルがトレーニングセットの凸包の外側にあり、モデルがその凸包の外側の領域を分割する方法がその一般化に影響を及ぼすため重要である。
近似理論を用いて、オーバーパラメータ化はトレーニングセットの凸殻外領域の分割を制御するための必要条件であることを示す。
また,学習課題と学習セットに基づく過度なパラメータ化の概念について,より明確な定義を提案する。
画像と非画像の両方のデータセットの幾何学に関する実証的な証拠を示し、モデルによって実行される外挿の程度についての洞察を提供する。
ResNetモデルにより学習された64次元特徴空間を考察し,その空間における凸殻と決定境界の幾何学的配置について検討する。
また、外挿の概念を定式化し、モデルのスコープと関連付けます。
最後に、純粋および応用数学におけるリッチな外挿文学(例えば、ホイットニーの拡張問題)を概観し、その文脈に我々の理論を置く。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。
これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文 参考訳(メタデータ) (2023-07-11T16:51:38Z) - Super-model ecosystem: A domain-adaptation perspective [101.76769818069072]
本稿では,ドメイン適応による新たなスーパーモデルパラダイムの理論的基礎を確立することを試みる。
スーパーモデルパラダイムは、計算とデータコストと二酸化炭素排出量を減らすのに役立つ。
論文 参考訳(メタデータ) (2022-08-30T09:09:43Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - An exact counterfactual-example-based approach to tree-ensemble models
interpretability [0.0]
高性能モデルは、決定を完全に理解するために必要な透明性を示さない。
多次元間隔の集まりの形で、決定領域の正確な幾何学的特徴付けを導出できる。
回帰問題に対する推論への適応も考えられている。
論文 参考訳(メタデータ) (2021-05-31T09:32:46Z) - Deep Learning Generalization and the Convex Hull of Training Sets [0.0]
トレーニングセットの凸船体に関連して,深層学習モデルの一般化について検討する。
訓練されたモデルのパフォーマンスは、その決定境界がトレーニングデータの凸船体外でどのように拡張されるかに部分的に依存します。
論文 参考訳(メタデータ) (2021-01-25T01:54:02Z) - Deep Conditional Transformation Models [0.0]
特徴集合上の結果変数条件の累積分布関数(CDF)を学習することは依然として困難である。
条件変換モデルは、条件付きCDFの大規模なクラスをモデル化できる半パラメトリックなアプローチを提供する。
我々は,新しいネットワークアーキテクチャを提案し,異なるモデル定義の詳細を提供し,適切な制約を導出する。
論文 参考訳(メタデータ) (2020-10-15T16:25:45Z) - Differentiable Segmentation of Sequences [2.1485350418225244]
我々は、連続的なワープ関数の学習の進歩の上に構築し、双方向パワー(TSP)分布に基づく新しいワープ関数のファミリーを提案する。
我々の定式化は特別な場合として分割一般化線型モデルの重要なクラスを含む。
我々は、PoissonレグレッションによるCOVID-19の拡散をモデル化し、変化点検出タスクに適用し、概念ドリフトによる分類モデルを学習する。
論文 参考訳(メタデータ) (2020-06-23T15:51:48Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z) - Stochastic spectral embedding [0.0]
確率スペクトル埋め込み(SSE)に基づく新しい逐次適応サロゲートモデリング法を提案する。
本手法は,複雑性と入力次元の異なるモデルの集合上で,最先端のスパースカオス展開に対して,どのように好意的に比較されるかを示す。
論文 参考訳(メタデータ) (2020-04-09T11:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。