論文の概要: Training Dynamics of Contextual N-Grams in Language Models
- arxiv url: http://arxiv.org/abs/2311.00863v1
- Date: Wed, 1 Nov 2023 21:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:27:37.670903
- Title: Training Dynamics of Contextual N-Grams in Language Models
- Title(参考訳): 言語モデルにおける文脈n-gramの学習ダイナミクス
- Authors: Lucia Quirke, Lovis Heindrich, Wes Gurnee, Neel Nanda
- Abstract要約: 我々は,ドイツ語のテキスト上で活性化するニューロンが,より広い文脈n-gram回路内に存在することを示す。
トレーニングを通してこの回路の形成について検討し、これが第2次回路と呼ばれるものの一例であることを示す。
- 参考スコア(独自算出の注目度): 1.4254279830438588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work has shown the existence of contextual neurons in language models,
including a neuron that activates on German text. We show that this neuron
exists within a broader contextual n-gram circuit: we find late layer neurons
which recognize and continue n-grams common in German text, but which only
activate if the German neuron is active. We investigate the formation of this
circuit throughout training and find that it is an example of what we call a
second-order circuit. In particular, both the constituent n-gram circuits and
the German detection circuit which culminates in the German neuron form with
independent functions early in training - the German detection circuit
partially through modeling German unigram statistics, and the n-grams by
boosting appropriate completions. Only after both circuits have already formed
do they fit together into a second-order circuit. Contrary to the hypotheses
presented in prior work, we find that the contextual n-gram circuit forms
gradually rather than in a sudden phase transition. We further present a range
of anomalous observations such as a simultaneous phase transition in many tasks
coinciding with the learning rate warm-up, and evidence that many context
neurons form simultaneously early in training but are later unlearned.
- Abstract(参考訳): 以前の研究は、ドイツ語のテキストで活性化するニューロンを含む言語モデルにおける文脈ニューロンの存在を示してきた。
このニューロンは、より広い文脈のn-gram回路内に存在し、ドイツのテキストに共通するn-gramを認識・継続する後期層ニューロンは、ドイツのニューロンがアクティブである場合にのみ活性化する。
この回路の形成をトレーニングを通して検討し,第2次回路と呼ぶものの一例であることを確認した。
特に、構成的n-gram回路と、訓練の早い段階で独立した機能を持つドイツニューロン形態で頂点に達するドイツ検出回路は、ドイツのユニグラム統計のモデル化による部分的検出回路と、適切な完了を促進するn-gram回路である。
両方の回路が既に形成されてから初めて、2階回路に適合する。
先行研究で示された仮説とは対照的に、突然の位相遷移よりも文脈的なn-gram回路が徐々に形成される。
さらに,学習速度のウォームアップと一致する多くのタスクにおける同時相転移などの異常な観察や,多くの文脈ニューロンがトレーニングの早い段階で同時に形成されるが、後に学習不能であることを示す。
関連論文リスト
- NeuroFly: A framework for whole-brain single neuron reconstruction [17.93211301158225]
本稿では,大規模な単一ニューロン再構築のための検証フレームワークであるNeuroFlyを紹介する。
NeuroFlyはプロセスを、セグメンテーション、接続、証明の3つのステージに分割する。
私たちの目標は、ニューロン再構築の課題に取り組むために、研究者間のコラボレーションを促進することです。
論文 参考訳(メタデータ) (2024-11-07T13:56:13Z) - Non-binary artificial neuron with phase variation implemented on a quantum computer [0.0]
複素数の位相を操作するバイナリモデルを一般化するアルゴリズムを導入する。
量子コンピュータにおける連続的な値を扱うニューロンモデルを提案し,検証し,実装する。
論文 参考訳(メタデータ) (2024-10-30T18:18:53Z) - Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Parametrized constant-depth quantum neuron [56.51261027148046]
本稿では,カーネルマシンをベースとした量子ニューロン構築フレームワークを提案する。
ここでは、指数的に大きい空間にテンソル積特徴写像を適用するニューロンについて述べる。
パラメトリゼーションにより、提案されたニューロンは、既存のニューロンが適合できない基礎となるパターンを最適に適合させることができることが判明した。
論文 参考訳(メタデータ) (2022-02-25T04:57:41Z) - On Neurons Invariant to Sentence Structural Changes in Neural Machine
Translation [35.32217580058933]
我々は、英語で制御された構文的パラフレーズのデータセットを、その参照ドイツ語翻訳でコンパイルする。
パラフレーズ間で相関するニューロンを同定し、観察された相関関係を推定し、起こりうる相同点に分解する。
我々は、特定の構文形式への翻訳に影響を与えるためにニューロンの活性化を操作する。
論文 参考訳(メタデータ) (2021-10-06T20:57:57Z) - Astrocytes mediate analogous memory in a multi-layer neuron-astrocytic
network [52.77024349608834]
情報の一部が数秒間堅牢な活動パターンとして維持され、他の刺激が来なければ完全に消滅することを示す。
この種の短期記憶は、操作情報を数秒保存し、次のパターンとの重複を避けるために完全に忘れてしまう。
任意のパターンをロードし、一定の間隔で保存し、適切な手掛かりパターンを入力に適用した場合に検索する方法について示す。
論文 参考訳(メタデータ) (2021-08-31T16:13:15Z) - The Quenching-Activation Behavior of the Gradient Descent Dynamics for
Two-layer Neural Network Models [12.865834066050427]
2層ニューラルネットワークモデルのトレーニングのための勾配降下アルゴリズムについて検討した。
低パラメトリケート状態におけるGDの動的挙動の2つの相について検討した。
クエンチング・アクティベーションプロセスは「単純正則化」の明確なメカニズムを提供するようである
論文 参考訳(メタデータ) (2020-06-25T14:41:53Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。