論文の概要: Characterising the Inductive Biases of Neural Networks on Boolean Data
- arxiv url: http://arxiv.org/abs/2505.24060v1
- Date: Thu, 29 May 2025 23:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.695118
- Title: Characterising the Inductive Biases of Neural Networks on Boolean Data
- Title(参考訳): ブールデータに基づくニューラルネットワークの誘導バイアスの特性評価
- Authors: Chris Mingard, Lukas Seier, Niclas Göring, Andrei-Vlad Badelita, Charles London, Ard Louis,
- Abstract要約: 我々は,ネットワークの帰納的先行性,特徴学習を含むトレーニングダイナミクス,そしてその最終的な一般化を結びつける,エンドツーエンドで解析的に抽出可能なケーススタディを提供する。
モンテカルロ学習アルゴリズムでは,予測可能な学習力学と解釈可能な特徴の出現を示す。
- 参考スコア(独自算出の注目度): 0.46180371154032906
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep neural networks are renowned for their ability to generalise well across diverse tasks, even when heavily overparameterized. Existing works offer only partial explanations (for example, the NTK-based task-model alignment explanation neglects feature learning). Here, we provide an end-to-end, analytically tractable case study that links a network's inductive prior, its training dynamics including feature learning, and its eventual generalisation. Specifically, we exploit the one-to-one correspondence between depth-2 discrete fully connected networks and disjunctive normal form (DNF) formulas by training on Boolean functions. Under a Monte Carlo learning algorithm, our model exhibits predictable training dynamics and the emergence of interpretable features. This framework allows us to trace, in detail, how inductive bias and feature formation drive generalisation.
- Abstract(参考訳): ディープニューラルネットワークは、過度にパラメータ化された場合でも、様々なタスクにまたがってうまく一般化できることで有名である。
既存の研究は部分的な説明しか提供していない(例えば、NTKベースのタスクモデルアライメントの説明は特徴学習を無視している)。
ここでは,ネットワークの帰納的先行性,特徴学習を含むトレーニングダイナミクス,そして最終的な一般化をリンクする,エンドツーエンドで解析的に抽出可能なケーススタディを提供する。
具体的には,DNF(disjunctive normal form)とDNF(disjunctive normal form)の1対1対応をブール関数のトレーニングにより評価する。
モンテカルロ学習アルゴリズムでは,予測可能な学習力学と解釈可能な特徴の出現を示す。
このフレームワークは、インダクティブバイアスと特徴形成がいかに一般化を駆動するかを、詳細に追跡することができます。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks [13.983863226803336]
勾配降下によって訓練されたニューラルネットワークは、分類に平均的な特徴に依存する傾向があることを示す。
勾配降下は、各隠れニューロンの重みがクラスター中心の平均を表す特徴平均化に偏りがあることを証明した。
我々は,2層ReLUネットワークが個々の特徴を分類する訓練を行う際に,最適なロバスト性を実現することを証明した。
論文 参考訳(メタデータ) (2024-10-14T09:28:32Z) - The mechanistic basis of data dependence and abrupt learning in an
in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文 参考訳(メタデータ) (2023-12-03T20:53:41Z) - Fundamental limits of overparametrized shallow neural networks for
supervised learning [11.136777922498355]
本研究では,教師ネットワークが生成した入力-出力ペアから学習した2層ニューラルネットワークについて検討する。
この結果は,トレーニングデータとネットワーク重み間の相互情報,すなわちベイズ最適一般化誤差に関連する境界の形で得られる。
論文 参考訳(メタデータ) (2023-07-11T08:30:50Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。