論文の概要: On the Implicit Bias of Gradient Descent for Temporal Extrapolation
- arxiv url: http://arxiv.org/abs/2202.04302v1
- Date: Wed, 9 Feb 2022 06:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 15:39:45.488685
- Title: On the Implicit Bias of Gradient Descent for Temporal Extrapolation
- Title(参考訳): 時間外挿における勾配降下の暗黙的バイアスについて
- Authors: Edo Cohen-Karlik, Avichai Ben David, Nadav Cohen and Amir Globerson
- Abstract要約: リカレントニューラルネットワーク(RNN)を使用する一般的なプラクティスは、トレーニングで見られるものよりも長いシーケンスにモデルを適用することだ。
無限のトレーニングデータであっても、完全に補間するRNNモデルが存在することを示す。
次に、勾配降下をトレーニングに用いた場合、学習は完全な外挿に収束することを示す。
- 参考スコア(独自算出の注目度): 32.93066466540839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Common practice when using recurrent neural networks (RNNs) is to apply a
model to sequences longer than those seen in training. This "extrapolating"
usage deviates from the traditional statistical learning setup where guarantees
are provided under the assumption that train and test distributions are
identical.
Here we set out to understand when RNNs can extrapolate, focusing on a simple
case where the data generating distribution is memoryless. We first show that
even with infinite training data, there exist RNN models that interpolate
perfectly (i.e., they fit the training data) yet extrapolate poorly to longer
sequences. We then show that if gradient descent is used for training, learning
will converge to perfect extrapolation under certain assumption on
initialization. Our results complement recent studies on the implicit bias of
gradient descent, showing that it plays a key role in extrapolation when
learning temporal prediction models.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)を使用する一般的なプラクティスは、トレーニングで見られるものよりも長いシーケンスにモデルを適用することだ。
この「抽出」使用法は、列車とテストの分布が同一であると仮定して保証が提供される従来の統計学習装置から逸脱する。
ここでは、rnnがいつ外挿可能かを理解し、データ生成分布がメモリレスな単純なケースに注目した。
まず、無限のトレーニングデータであっても、完全に補間する(つまり、トレーニングデータに適合する)RNNモデルが存在するが、より長いシーケンスに外挿しないことを示す。
次に、勾配降下がトレーニングに使用される場合、学習は初期化の仮定の下で完全な外挿に収束することを示す。
本研究は,勾配降下の暗黙的バイアスに関する最近の研究を補完するものであり,時間的予測モデル学習における外挿において重要な役割を担っている。
関連論文リスト
- Generalized Regression with Conditional GANs [2.4171019220503402]
本稿では,学習データセットにおける特徴ラベルペアと,対応する入力と組み合わせて出力を区別できない予測関数を学習することを提案する。
回帰に対するこのアプローチは、私たちが適合するデータの分布に対する仮定を減らし、表現能力が向上することを示す。
論文 参考訳(メタデータ) (2024-04-21T01:27:47Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Neural Jump Ordinary Differential Equations: Consistent Continuous-Time
Prediction and Filtering [6.445605125467574]
我々は、連続的に学習するデータ駆動型アプローチを提供するNeural Jump ODE(NJ-ODE)を紹介する。
我々のモデルは、$L2$-Optimalオンライン予測に収束することを示す。
我々は,より複雑な学習タスクにおいて,モデルがベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2020-06-08T16:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。