論文の概要: A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language
- arxiv url: http://arxiv.org/abs/2408.12578v1
- Date: Thu, 22 Aug 2024 17:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 12:52:30.702389
- Title: A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language
- Title(参考訳): 創発のパーコレーションモデル:形式言語で訓練された変圧器の解析
- Authors: Ekdeep Singh Lubana, Kyogo Kawaguchi, Robert P. Dick, Hidenori Tanaka,
- Abstract要約: データ、サイズ、計算量の増加は、ニューラルネットワークによる特定の能力の急激な学習につながる可能性がある。
本稿では,ニューラルネットワークの文脈における概念の現象論的定義を提案する。
言語の基礎となる文法と文脈に敏感な構造が学習されると、より狭いタスクのパフォーマンスが急に向上し始めることを示す。
- 参考スコア(独自算出の注目度): 15.929767234646631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increase in data, size, or compute can lead to sudden learning of specific capabilities by a neural network -- a phenomenon often called "emergence". Beyond scientific understanding, establishing the causal factors underlying such emergent capabilities is crucial to enable risk regulation frameworks for AI. In this work, we seek inspiration from study of emergent properties in other fields and propose a phenomenological definition for the concept in the context of neural networks. Our definition implicates the acquisition of specific structures underlying the data-generating process as a cause of sudden performance growth for specific, narrower tasks. We empirically investigate this definition by proposing an experimental system grounded in a context-sensitive formal language and find that Transformers trained to perform tasks on top of strings from this language indeed exhibit emergent capabilities. Specifically, we show that once the language's underlying grammar and context-sensitivity inducing structures are learned by the model, performance on narrower tasks suddenly begins to improve. We then analogize our network's learning dynamics with the process of percolation on a bipartite graph, establishing a formal phase transition model that predicts the shift in the point of emergence observed in experiment when changing the data structure. Overall, our experimental and theoretical frameworks yield a step towards better defining, characterizing, and predicting emergence in neural networks.
- Abstract(参考訳): データ、サイズ、計算量の増加は、ニューラルネットワークによって特定の能力の急激な学習につながる可能性がある。
科学的理解の他に、このような創発的能力の根底にある因果的要因を確立することは、AIのリスク規制フレームワークを有効にするために重要である。
本研究では、他の分野における創発的特性の研究からインスピレーションを求め、ニューラルネットワークの文脈における概念の現象論的定義を提案する。
我々の定義は、データ生成プロセスの根底にある特定の構造を、特定の、より狭いタスクに対して突然のパフォーマンスが向上する原因として捉えている。
我々は、文脈に敏感な形式言語を基礎とした実験システムを提案し、この言語から文字列上でタスクを実行するように訓練されたトランスフォーマーが、実際に創発的な能力を示すことを発見した。
具体的には、言語の基本となる文法と文脈に敏感な構造がモデルによって学習されると、より狭いタスクのパフォーマンスが突然改善され始めることを示す。
次に、ネットワークの学習力学を二部グラフ上のパーコレーションの過程と類似させ、データ構造を変更する際に観測された出現点の変化を予測する形式的な位相遷移モデルを確立する。
全体として、我々の実験的および理論的フレームワークは、ニューラルネットワークの出現をよりよく定義し、特徴付けし、予測するための一歩となる。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - The mechanistic basis of data dependence and abrupt learning in an
in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文 参考訳(メタデータ) (2023-12-03T20:53:41Z) - Unraveling Feature Extraction Mechanisms in Neural Networks [10.13842157577026]
本稿では, ニューラルネットワークカーネル(NTK)に基づく理論的手法を提案し, そのメカニズムを解明する。
これらのモデルが勾配降下時の統計的特徴をどのように活用し、最終決定にどのように統合されるかを明らかにする。
自己注意モデルとCNNモデルはn-gramの学習の限界を示すが、乗算モデルはこの領域で優れていると考えられる。
論文 参考訳(メタデータ) (2023-10-25T04:22:40Z) - Learning Disentangled Representations for Natural Language Definitions [0.0]
テキストデータの連続的な構文的・意味的規則性は、構造的バイアスと生成的要因の両方をモデルに提供するのに有効である、と我々は主張する。
本研究では,文型,定義文の表現的・意味的に密接なカテゴリに存在する意味的構造を利用して,不整合表現を学習するための変分オートエンコーダを訓練する。
論文 参考訳(メタデータ) (2022-09-22T14:31:55Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - The Unstoppable Rise of Computational Linguistics in Deep Learning [17.572024590374305]
自然言語理解タスクに適用されたニューラルネットワークの歴史を辿る。
トランスフォーマーはシーケンスモデルではなく、帰納構造モデルであると主張する。
論文 参考訳(メタデータ) (2020-05-13T16:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。