論文の概要: Meta predictive learning model of natural languages
- arxiv url: http://arxiv.org/abs/2309.04106v1
- Date: Fri, 8 Sep 2023 03:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 16:04:49.402329
- Title: Meta predictive learning model of natural languages
- Title(参考訳): 自然言語のメタ予測学習モデル
- Authors: Chan Li and Junbin Qiu and Haiping Huang
- Abstract要約: 本稿では,予測符号化フレームワークにおける平均場学習モデルを提案する。
このモデルは手書き桁の分類に成功している。
我々のモデルでは、ほとんどの接続は学習後に決定論的になるが、出力接続はより高いばらつきを持つ。
- 参考スコア(独自算出の注目度): 2.5690340428649328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models based on self-attention mechanisms have achieved
astonishing performances not only in natural language itself, but also in a
variety of tasks of different nature. However, regarding processing language,
our human brain may not operate using the same principle. Then, a debate is
established on the connection between brain computation and artificial
self-supervision adopted in large language models. One of most influential
hypothesis in brain computation is the predictive coding framework, which
proposes to minimize the prediction error by local learning. However, the role
of predictive coding and the associated credit assignment in language
processing remains unknown. Here, we propose a mean-field learning model within
the predictive coding framework, assuming that the synaptic weight of each
connection follows a spike and slab distribution, and only the distribution is
trained. This meta predictive learning is successfully validated on classifying
handwritten digits where pixels are input to the network in sequence, and on
the toy and real language corpus. Our model reveals that most of the
connections become deterministic after learning, while the output connections
have a higher level of variability. The performance of the resulting network
ensemble changes continuously with data load, further improving with more
training data, in analogy with the emergent behavior of large language models.
Therefore, our model provides a starting point to investigate the physics and
biology correspondences of the language processing and the unexpected general
intelligence.
- Abstract(参考訳): 自己認識機構に基づく大規模言語モデルは、自然言語自体だけでなく、様々な性質のタスクにおいて驚くべきパフォーマンスを達成した。
しかし、言語処理に関しては、人間の脳は同じ原理で動作しないかもしれない。
次に, 大規模言語モデルにおける脳計算と人工的自己スーパービジョンの関係について議論する。
脳計算における最も影響力のある仮説の1つは、局所学習による予測誤差を最小化する予測符号化フレームワークである。
しかし、言語処理における予測符号化と関連するクレジット割り当ての役割は未だ不明である。
本稿では,各接続のシナプス重みがスパイク・スラブ分布に従うことを仮定し,分布のみを訓練した予測符号化フレームワークにおける平均場学習モデルを提案する。
このメタ予測学習は、連続してネットワークに画素が入力される手書き桁の分類と、おもちゃと実言語コーパスの分類に成功している。
我々のモデルでは、ほとんどの接続は学習後に決定論的になるが、出力接続はより高いばらつきを持つ。
結果として得られるネットワークアンサンブルのパフォーマンスは、データ負荷とともに継続的に変化し、大規模言語モデルの創発的振る舞いと類似して、より多くのトレーニングデータにより改善される。
したがって,本モデルは,言語処理と予期しない汎用知能の物理・生物学対応を研究するための出発点となる。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。
本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-21T12:54:03Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Causal Graph in Language Model Rediscovers Cortical Hierarchy in Human
Narrative Processing [0.0]
これまでの研究では、言語モデルの特徴がfMRI脳活動にマッピングできることが示されている。
これは、言語モデルにおける情報処理と人間の脳の間に共通点があるのだろうか?
言語モデルにおける情報フローパターンを推定するために,異なる層間の因果関係について検討した。
論文 参考訳(メタデータ) (2023-11-17T10:09:12Z) - Transparency at the Source: Evaluating and Interpreting Language Models
With Access to the True Distribution [4.01799362940916]
人工的な言語のようなデータを用いて、ニューラルネットワークモデルのトレーニング、評価、解釈を行う。
データは、巨大な自然言語コーパスから派生した巨大な確率文法を用いて生成される。
基礎となる真の情報源にアクセスすることで、異なる単語のクラス間の動的学習における顕著な違いと結果が示される。
論文 参考訳(メタデータ) (2023-10-23T12:03:01Z) - Why can neural language models solve next-word prediction? A
mathematical perspective [53.807657273043446]
本研究では,英語文の実例をモデル化するための形式言語群について検討する。
我々の証明は、ニューラルネットワークモデルにおける埋め込み層と完全に接続されたコンポーネントの異なる役割を強調します。
論文 参考訳(メタデータ) (2023-06-20T10:41:23Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Language Models are not Models of Language [0.0]
トランスファーラーニングにより、言語モデリングタスクでトレーニングされた大規模なディープラーニングニューラルネットワークにより、パフォーマンスが大幅に向上した。
深層学習モデルは言語の理論的モデルではないので、言語モデルという用語は誤解を招く。
論文 参考訳(メタデータ) (2021-12-13T22:39:46Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。