論文の概要: Learning to Reason with Neural Networks: Generalization, Unseen Data and
Boolean Measures
- arxiv url: http://arxiv.org/abs/2205.13647v1
- Date: Thu, 26 May 2022 21:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 11:07:20.034621
- Title: Learning to Reason with Neural Networks: Generalization, Unseen Data and
Boolean Measures
- Title(参考訳): ニューラルネットワークによる推論の学習:一般化、見えないデータ、ブール測度
- Authors: Emmanuel Abbe, Samy Bengio, Elisabetta Cornacchia, Jon Kleinberg, Aryo
Lotfi, Maithra Raghu, Chiyuan Zhang
- Abstract要約: 本稿では,[ZRKB21]で導入されたポインタ値検索(PVR)ベンチマークについて考察する。
まず、対称ニューラルネットワーク上で勾配勾配勾配の論理関数を学習するために、対象関数の雑音安定性の観点から一般化誤差を下界化できることを示した。
- 参考スコア(独自算出の注目度): 44.87247707099189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers the Pointer Value Retrieval (PVR) benchmark introduced
in [ZRKB21], where a 'reasoning' function acts on a string of digits to produce
the label. More generally, the paper considers the learning of logical
functions with gradient descent (GD) on neural networks. It is first shown that
in order to learn logical functions with gradient descent on symmetric neural
networks, the generalization error can be lower-bounded in terms of the
noise-stability of the target function, supporting a conjecture made in
[ZRKB21]. It is then shown that in the distribution shift setting, when the
data withholding corresponds to freezing a single feature (referred to as
canonical holdout), the generalization error of gradient descent admits a tight
characterization in terms of the Boolean influence for several relevant
architectures. This is shown on linear models and supported experimentally on
other models such as MLPs and Transformers. In particular, this puts forward
the hypothesis that for such architectures and for learning logical functions
such as PVR functions, GD tends to have an implicit bias towards low-degree
representations, which in turn gives the Boolean influence for the
generalization error under quadratic loss.
- Abstract(参考訳): 本稿では,[ZRKB21]で導入されたポインタ値検索(PVR)ベンチマークについて考察する。
より一般に、ニューラルネットワーク上での勾配降下(GD)を伴う論理関数の学習について考察する。
まず, 対称ニューラルネットワーク上で勾配降下を伴う論理関数を学習するためには, [zrkb21] による予想を支持し, 対象関数の雑音安定性の観点から一般化誤差を低くすることができることを示した。
分布シフト設定では、保持するデータが1つの特徴の凍結に対応するとき(正準ホールドアウトと呼ばれる)、勾配降下の一般化誤差はいくつかの関連するアーキテクチャに対するブールの影響という観点で厳密な特徴付けが認められる。
これは線形モデルで示され、MLPやTransformerといった他のモデルで実験的にサポートされている。
特に、このようなアーキテクチャやpvr関数のような論理関数の学習においては、gdは低次表現に対する暗黙のバイアスを持つ傾向があり、二次損失の下での一般化誤差に対するブールの影響を与えるという仮説が提唱されている。
関連論文リスト
- Learning local discrete features in explainable-by-design convolutional neural networks [0.0]
本稿では,側方抑制機構に基づくCNN(Design-by-Design Convolutional Neural Network)を提案する。
このモデルは、残留または高密度のスキップ接続を持つ高精度CNNである予測器で構成されている。
観測を収集し,直接確率を計算することにより,隣接するレベルのモチーフ間の因果関係を説明することができる。
論文 参考訳(メタデータ) (2024-10-31T18:39:41Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - The twin peaks of learning neural networks [3.382017614888546]
近年の研究では、ニューラルネットワークの一般化誤差に対する二重発光現象の存在が示されている。
この現象とニューラルネットワークで表される関数の複雑さと感度の増大との関係について検討する。
論文 参考訳(メタデータ) (2024-01-23T10:09:14Z) - Accelerated Neural Network Training with Rooted Logistic Objectives [13.400503928962756]
我々は、少なくともロジスティック損失と同じくらい厳密なエムの厳密凸関数列を導出する。
その結果,根付き損失関数による学習はより早く収束し,性能が向上した。
論文 参考訳(メタデータ) (2023-10-05T20:49:48Z) - Generalizing Backpropagation for Gradient-Based Interpretability [103.2998254573497]
モデルの勾配は、半環を用いたより一般的な定式化の特別な場合であることを示す。
この観測により、バックプロパゲーションアルゴリズムを一般化し、他の解釈可能な統計を効率的に計算することができる。
論文 参考訳(メタデータ) (2023-07-06T15:19:53Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Random Feature Amplification: Feature Learning and Generalization in
Neural Networks [44.431266188350655]
勾配降下法により訓練された2層ReLUネットワークにおける特徴学習過程の特徴付けを行う。
線形分類器は分布のランダムな推定に勝るものの,勾配降下により訓練された2層ReLUネットワークはラベルノイズ率に近い一般化誤差を達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:18:22Z) - Modeling Implicit Bias with Fuzzy Cognitive Maps [0.0]
本稿では、構造化データセットにおける暗黙バイアスを定量化するファジィ認知マップモデルを提案する。
本稿では,ニューロンの飽和を防止する正規化様伝達関数を備えた新しい推論機構を提案する。
論文 参考訳(メタデータ) (2021-12-23T17:04:12Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。