論文の概要: Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans
- arxiv url: http://arxiv.org/abs/2006.11098v2
- Date: Mon, 3 May 2021 06:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 04:40:37.342223
- Title: Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans
- Title(参考訳): ニューラルネットワーク言語モデルと人間におけるネスト依存の処理機構
- Authors: Yair Lakretz, Dieuwke Hupkes, Alessandra Vergallito, Marco Marelli,
Marco Baroni, Stanislas Dehaene
- Abstract要約: 我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
- 参考スコア(独自算出の注目度): 75.15855405318855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recursive processing in sentence comprehension is considered a hallmark of
human linguistic abilities. However, its underlying neural mechanisms remain
largely unknown. We studied whether a modern artificial neural network trained
with "deep learning" methods mimics a central aspect of human sentence
processing, namely the storing of grammatical number and gender information in
working memory and its use in long-distance agreement (e.g., capturing the
correct number agreement between subject and verb when they are separated by
other phrases). Although the network, a recurrent architecture with Long
Short-Term Memory units, was solely trained to predict the next word in a large
corpus, analysis showed the emergence of a very sparse set of specialized units
that successfully handled local and long-distance syntactic agreement for
grammatical number. However, the simulations also showed that this mechanism
does not support full recursion and fails with some long-range embedded
dependencies. We tested the model's predictions in a behavioral experiment
where humans detected violations in number agreement in sentences with
systematic variations in the singular/plural status of multiple nouns, with or
without embedding. Human and model error patterns were remarkably similar,
showing that the model echoes various effects observed in human data. However,
a key difference was that, with embedded long-range dependencies, humans
remained above chance level, while the model's systematic errors brought it
below chance. Overall, our study shows that exploring the ways in which modern
artificial neural networks process sentences leads to precise and testable
hypotheses about human linguistic performance.
- Abstract(参考訳): 文理解における再帰的処理は人間の言語能力の目印と考えられている。
しかし、その基盤となる神経機構はほとんど不明である。
本研究では,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的側面,すなわち作業記憶における文法的数と性別情報の保存と長距離一致(例えば,他の句で区切られた場合の主語と動詞の正確な数一致を捉える)を模倣するか否かを検討した。
長い短期記憶単位を持つリカレントなアーキテクチャであるネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、文法数に対する局所的および長距離的構文合意をうまく処理した、非常に希少な特殊ユニットの出現が示された。
しかし、シミュレーションでは、このメカニズムは完全な再帰をサポートしておらず、ある程度の長期の組み込み依存性で失敗することを示した。
我々は,複数の名詞の単数/複数状態の体系的な変化を伴う文において,人間が数一致の違反を検知する行動実験において,モデルの予測を検証した。
人間とモデルのエラーパターンは著しく類似しており、モデルが人間のデータで観測された様々な影響を反映していることを示している。
しかし、重要な違いは、組み込みの長距離依存性により、人間は偶然レベルを超え、一方モデルの体系的なエラーは偶然レベルを下回ったことである。
全体として、現代のニューラルネットワークが文を処理する方法を探ることで、人間の言語性能に関する正確で検証可能な仮説が導かれる。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Meta predictive learning model of languages in neural circuits [2.5690340428649328]
本稿では,予測符号化フレームワークにおける平均場学習モデルを提案する。
我々のモデルでは、ほとんどの接続は学習後に決定論的になる。
本モデルは,脳計算,次点予測,一般知能の関連性を調べるための出発点となる。
論文 参考訳(メタデータ) (2023-09-08T03:58:05Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Demystifying Neural Language Models' Insensitivity to Word-Order [7.72780997900827]
摂動の定量化により,自然言語モデルの単語順に対する不感度について検討する。
ニューラルネットワークモデルは、トークンのグローバルな順序付けよりも、局所的な順序付けを必要とする。
論文 参考訳(メタデータ) (2021-07-29T13:34:20Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - A Targeted Assessment of Incremental Processing in Neural LanguageModels
and Humans [2.7624021966289605]
本稿では,人間とニューラル言語モデルにおけるインクリメンタル処理のスケールアップ比較について述べる。
データはInterpolated Maze Taskと呼ばれる新しいオンライン実験パラダイムに由来する。
人間と言語モデルの両方が、非文法的な文領域における処理困難を増大させていることが判明した。
論文 参考訳(メタデータ) (2021-06-06T20:04:39Z) - Analyzing Individual Neurons in Pre-trained Language Models [41.07850306314594]
言語的タスクを予測できるニューロンのサブセットは、より少ないニューロンに局所化される低いレベルタスクと、より高いレベルの構文予測タスクとがある。
例えば、XLNet のニューロンは、BERT などの特性を予測する際により局所化され、解離し、より分散され、結合される。
論文 参考訳(メタデータ) (2020-10-06T13:17:38Z) - Neural Baselines for Word Alignment [0.0]
4つの言語対に対する教師なし単語アライメントのためのニューラルモデルの検討と評価を行った。
我々は、IBM-1と隠れマルコフモデルのニューラルバージョンが、個々のモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-09-28T07:51:03Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。