論文の概要: Robust Generalization of Quadratic Neural Networks via Function
Identification
- arxiv url: http://arxiv.org/abs/2109.10935v1
- Date: Wed, 22 Sep 2021 18:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 15:10:55.184800
- Title: Robust Generalization of Quadratic Neural Networks via Function
Identification
- Title(参考訳): 関数同定による二次ニューラルネットワークのロバスト一般化
- Authors: Kan Xu, Hamsa Bastani, Osbert Bastani
- Abstract要約: 一般化は、テスト分布がトレーニング分布に近いと仮定することが多い。
2次ニューラルネットワークでは、パラメータを特定できないにもかかわらず、モデルで表される関数を識別できることが示される。
- 参考スコア(独自算出の注目度): 19.87036824512198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge facing deep learning is that neural networks are often not
robust to shifts in the underlying data distribution. We study this problem
from the perspective of the statistical concept of parameter identification.
Generalization bounds from learning theory often assume that the test
distribution is close to the training distribution. In contrast, if we can
identify the "true" parameters, then the model generalizes to arbitrary
distribution shifts. However, neural networks are typically overparameterized,
making parameter identification impossible. We show that for quadratic neural
networks, we can identify the function represented by the model even though we
cannot identify its parameters. Thus, we can obtain robust generalization
bounds even in the overparameterized setting. We leverage this result to obtain
new bounds for contextual bandits and transfer learning with quadratic neural
networks. Overall, our results suggest that we can improve robustness of neural
networks by designing models that can represent the true data generating
process. In practice, the true data generating process is often very complex;
thus, we study how our framework might connect to neural module networks, which
are designed to break down complex tasks into compositions of simpler ones. We
prove robust generalization bounds when individual neural modules are
identifiable.
- Abstract(参考訳): ディープラーニングが直面する重要な課題は、ニューラルネットワークが基盤となるデータ分散の変化に対して堅牢ではないことだ。
本稿では,パラメータ同定の統計的概念の観点からこの問題を考察する。
学習理論からの一般化境界は、しばしばテスト分布がトレーニング分布に近いと仮定する。
対照的に、「真の」パラメータを特定できれば、モデルは任意の分布シフトに一般化される。
しかし、ニューラルネットワークは通常過パラメータ化され、パラメータ識別が不可能になる。
二次ニューラルネットワークでは,パラメータを識別できない場合でも,モデルで表される関数を識別できることを示す。
したがって、過パラメータ化設定においてもロバストな一般化境界が得られる。
この結果を利用して,2次ニューラルネットワークを用いたコンテキストバンディットと転送学習の新しい境界を求める。
その結果,真のデータ生成プロセスを表現するモデルを設計することで,ニューラルネットワークの堅牢性を向上させることが可能であることが示唆された。
実際、真のデータ生成プロセスは、しばしば非常に複雑である;したがって、我々のフレームワークが、複雑なタスクをより単純なタスクの構成に分割するように設計されたニューラルモジュールネットワークとどのように接続するかを研究する。
個々の神経モジュールが識別可能である場合、ロバストな一般化境界が証明される。
関連論文リスト
- How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Utility-Probability Duality of Neural Networks [4.871730595406078]
本稿では,ディープラーニングにおける標準教師あり学習手順に対するユーティリティに基づく代替的説明を提案する。
基本的な考え方は、学習したニューラルネットワークを確率モデルではなく、順序付きユーティリティ関数として解釈することである。
ソフトマックス出力を持つ全てのニューラルネットワークに対して、最大推定値のSGD学習ダイナミクスを反復過程と見なすことができる。
論文 参考訳(メタデータ) (2023-05-24T08:09:07Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Correlation between entropy and generalizability in a neural network [9.223853439465582]
We use Wang-Landau Mote Carlo algorithm to compute the entropy at a specified test accuracy。
この結果から,エントロピック力は一般化に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-07-05T12:28:13Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Mitigating Performance Saturation in Neural Marked Point Processes:
Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。
我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-07-07T16:59:14Z) - Persistent Homology Captures the Generalization of Neural Networks
Without A Validation Set [0.0]
本稿では,代数的トポロジー,特に永続的ホモロジーを用いたニューラルネットワークのトレーニングについて考察する。
ニューラルネットワークの単純な複雑な表現を用いて、ニューラルネットワーク学習プロセスにおけるPHダイアグラム距離の進化について検討する。
その結果,連続するニューラルネットワーク状態間のPHダイアグラム距離は,検証精度と相関していることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:31Z) - Malicious Network Traffic Detection via Deep Learning: An Information
Theoretic View [0.0]
本研究では,ホメオモルフィズムがマルウェアのトラフィックデータセットの学習表現に与える影響について検討する。
この結果から,学習された表現の詳細と,すべてのパラメータの多様体上で定義された特定の座標系は,関数近似とは全く異なることが示唆された。
論文 参考訳(メタデータ) (2020-09-16T15:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。