論文の概要: Teasing Apart Architecture and Initial Weights as Sources of Inductive Bias in Neural Networks
- arxiv url: http://arxiv.org/abs/2502.20237v1
- Date: Thu, 27 Feb 2025 16:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:33.606316
- Title: Teasing Apart Architecture and Initial Weights as Sources of Inductive Bias in Neural Networks
- Title(参考訳): ニューラルネットワークにおけるインダクティブバイアスの発生源としてのアパルトアーキテクチャと初期重みの緩和
- Authors: Gianluca Bencomo, Max Gupta, Ioana Marinescu, R. Thomas McCoy, Thomas L. Griffiths,
- Abstract要約: メタトレーニングは、アーキテクチャやデータ表現におけるパフォーマンスの違いを大幅に減らしたり、完全に排除できることを示す。
これらの要因は、通常想定されるよりも誘導バイアスの源として重要でない可能性がある。
- 参考スコア(独自算出の注目度): 7.527452274800216
- License:
- Abstract: Artificial neural networks can acquire many aspects of human knowledge from data, making them promising as models of human learning. But what those networks can learn depends upon their inductive biases -- the factors other than the data that influence the solutions they discover -- and the inductive biases of neural networks remain poorly understood, limiting our ability to draw conclusions about human learning from the performance of these systems. Cognitive scientists and machine learning researchers often focus on the architecture of a neural network as a source of inductive bias. In this paper we explore the impact of another source of inductive bias -- the initial weights of the network -- using meta-learning as a tool for finding initial weights that are adapted for specific problems. We evaluate four widely-used architectures -- MLPs, CNNs, LSTMs, and Transformers -- by meta-training 430 different models across three tasks requiring different biases and forms of generalization. We find that meta-learning can substantially reduce or entirely eliminate performance differences across architectures and data representations, suggesting that these factors may be less important as sources of inductive bias than is typically assumed. When differences are present, architectures and data representations that perform well without meta-learning tend to meta-train more effectively. Moreover, all architectures generalize poorly on problems that are far from their meta-training experience, underscoring the need for stronger inductive biases for robust generalization.
- Abstract(参考訳): 人工ニューラルネットワークは、データから人間の知識の多くの側面を取得することができ、人間の学習のモデルとして期待できる。
しかし、これらのネットワークが学べるものは、その帰納的バイアス(発見するソリューションに影響を与えるデータ以外の要因)と、ニューラルネットワークの帰納的バイアス(inductive bias)が未理解のままであり、これらのシステムのパフォーマンスから人間の学習に関する結論を引き出す能力を制限する。
認知科学者や機械学習研究者は、しばしば誘導バイアスの源としてニューラルネットワークのアーキテクチャに焦点を当てる。
本稿では、メタラーニングを特定の問題に適応した初期重みを見つけるツールとして利用し、別の帰納的バイアス源(ネットワークの初期重み)の影響について検討する。
MLP, CNN, LSTM, トランスフォーマーの4つの広く利用されているアーキテクチャを, 3つのタスクにまたがって430種類のモデルをメタトレーニングすることで評価した。
メタラーニングは、アーキテクチャやデータ表現におけるパフォーマンスの違いを著しく減らしたり、完全に取り除くことができ、これらの要因は、通常想定されるよりも帰納的バイアスの源として重要でない可能性があることを示唆している。
違いが存在する場合、メタ学習なしでうまく機能するアーキテクチャやデータ表現は、メタトレーニングをより効果的に行う傾向がある。
さらに、全てのアーキテクチャはメタトレーニングの経験からかけ離れている問題に対してあまり一般化せず、堅牢な一般化のためのより強い帰納バイアスの必要性を強調している。
関連論文リスト
- From Lazy to Rich: Exact Learning Dynamics in Deep Linear Networks [47.13391046553908]
人工ネットワークでは、これらのモデルの有効性はタスク固有の表現を構築する能力に依存している。
以前の研究では、異なる初期化によって、表現が静的な遅延状態にあるネットワークや、表現が動的に進化するリッチ/フィーチャーな学習体制のいずれかにネットワークを配置できることが強調されていた。
これらの解は、豊かな状態から遅延状態までのスペクトルにわたる表現とニューラルカーネルの進化を捉えている。
論文 参考訳(メタデータ) (2024-09-22T23:19:04Z) - Harnessing Synthetic Datasets: The Role of Shape Bias in Deep Neural
Network Generalization [27.39922946288783]
ニューラルネットワークが合成データセットのトレーニング中にどのように形状バイアスを示すかを検討する。
形状バイアスはネットワークアーキテクチャや監視の種類によって異なる。
本稿では,データセット内のサンプルの多様性を推定するためのツールとして,新しい形状バイアスの解釈を提案する。
論文 参考訳(メタデータ) (2023-11-10T18:25:44Z) - How connectivity structure shapes rich and lazy learning in neural
circuits [14.236853424595333]
本稿では,初期重みの構造,特にその有効ランクがネットワーク学習体制に与える影響について検討する。
本研究は,学習体制形成における初期重み構造の役割を明らかにするものである。
論文 参考訳(メタデータ) (2023-10-12T17:08:45Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。
臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文 参考訳(メタデータ) (2022-10-06T23:50:38Z) - Synergistic information supports modality integration and flexible
learning in neural networks solving multiple tasks [107.8565143456161]
本稿では,様々な認知タスクを行う単純な人工ニューラルネットワークが採用する情報処理戦略について検討する。
結果は、ニューラルネットワークが複数の多様なタスクを学習するにつれて、シナジーが増加することを示している。
トレーニング中に無作為にニューロンを停止させると、ネットワークの冗長性が増加し、ロバスト性の増加に対応する。
論文 参考訳(メタデータ) (2022-10-06T15:36:27Z) - A Theoretical Analysis on Feature Learning in Neural Networks: Emergence
from Inputs and Advantage over Fixed Features [18.321479102352875]
ニューラルネットワークの重要な特徴は、予測に有効な特徴を持つ入力データの表現を学ぶ能力である。
実践的なデータによって動機づけられた学習問題を考察し、そこでは、ラベルが一連のクラス関連パターンによって決定され、それらから入力が生成される。
勾配降下によって訓練されたニューラルネットワークがこれらの問題に成功できることを実証する。
論文 参考訳(メタデータ) (2022-06-03T17:49:38Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Vulnerability Under Adversarial Machine Learning: Bias or Variance? [77.30759061082085]
本研究では,機械学習が訓練された深層ニューラルネットワークのバイアスと分散に与える影響について検討する。
我々の分析は、ディープニューラルネットワークが対向的摂動下で性能が劣っている理由に光を当てている。
本稿では,計算処理の複雑さをよく知られた機械学習手法よりも低く抑えた,新しい逆機械学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-01T00:58:54Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。