論文の概要: Decoding Probing: Revealing Internal Linguistic Structures in Neural Language Models using Minimal Pairs
- arxiv url: http://arxiv.org/abs/2403.17299v1
- Date: Tue, 26 Mar 2024 00:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 17:05:31.366765
- Title: Decoding Probing: Revealing Internal Linguistic Structures in Neural Language Models using Minimal Pairs
- Title(参考訳): Decoding Probing:ミニマルペアを用いたニューラル言語モデルの内部言語構造の研究
- Authors: Linyang He, Peili Chen, Ercong Nie, Yuanning Li, Jonathan R. Brennan,
- Abstract要約: 本稿では,ニューラルネットワークモデル層の内部言語特性を層単位で探索する新しい復号探索手法を提案する。
言語モデルを脳として扱い、その表現をニューラルアクティベーションとして扱うことにより、中間層の表現から最小対の文法ラベルをデコードする。
- 参考スコア(独自算出の注目度): 0.873811641236639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by cognitive neuroscience studies, we introduce a novel `decoding probing' method that uses minimal pairs benchmark (BLiMP) to probe internal linguistic characteristics in neural language models layer by layer. By treating the language model as the `brain' and its representations as `neural activations', we decode grammaticality labels of minimal pairs from the intermediate layers' representations. This approach reveals: 1) Self-supervised language models capture abstract linguistic structures in intermediate layers that GloVe and RNN language models cannot learn. 2) Information about syntactic grammaticality is robustly captured through the first third layers of GPT-2 and also distributed in later layers. As sentence complexity increases, more layers are required for learning grammatical capabilities. 3) Morphological and semantics/syntax interface-related features are harder to capture than syntax. 4) For Transformer-based models, both embeddings and attentions capture grammatical features but show distinct patterns. Different attention heads exhibit similar tendencies toward various linguistic phenomena, but with varied contributions.
- Abstract(参考訳): 認知神経科学研究に触発されて、最小ペアベンチマーク(BLiMP)を用いて、ニューラルネットワークモデル層の内部言語特性を層別に探索する新しい「復号探索法」を導入する。
言語モデルを'brain'として、その表現を'neural activations'として扱うことで、中間層の表現から最小ペアの文法ラベルをデコードする。
このアプローチは明らかです。
1) 自己教師型言語モデルはGloVeとRNN言語モデルでは学べない中間層における抽象言語構造を捉えている。
2) 文法的文法性に関する情報は, GPT-2の第3層を通して強固に捕捉され, 後層に分布する。
文の複雑さが増大するにつれて、文法能力を学ぶためにより多くの層が必要とされる。
3) 形態的・意味的・構文的インタフェース関連機能は, 構文よりもキャプチャが難しい。
4) Transformer ベースのモデルでは,埋め込みと注意の両方が文法的特徴を捉えるが,異なるパターンを示す。
異なる注意の頭は、様々な言語現象に対して同様の傾向を示すが、様々な貢献がある。
関連論文リスト
- Metric-Learning Encoding Models Identify Processing Profiles of
Linguistic Features in BERT's Representations [5.893248479095486]
メトリックラーニングモデル(MLEM)は、ニューラルネットワークが処理対象の理論的特徴をどのように表現するかを理解するための新しいアプローチである。
MLEMは、他のドメイン(例えば視覚)や人間の脳などの他の神経系に拡張することができる。
論文 参考訳(メタデータ) (2024-02-18T14:57:53Z) - Neural Language of Thought Models [18.930227757853313]
我々は、LoTHにインスパイアされた表現と生成の教師なし学習のための新しいアプローチであるNeural Language of Thought Model (NLoTM)を紹介する。
NLoTMは,(1)オブジェクトとその特性に整合した階層的かつ構成可能な離散表現を学習するSemantic Vector-Quantized Variational Autoencoder,(2)意味概念トークンを合成的に生成する自動回帰変換器であるAutoregressive LoT Prior,の2つの重要なコンポーネントから構成される。
我々は、NLoTMを複数の2次元および3次元画像データセット上で評価し、下流タスクにおける優れた性能、分布外一般化、画像生成を示す。
論文 参考訳(メタデータ) (2024-02-02T08:13:18Z) - Agentivit\`a e telicit\`a in GilBERTo: implicazioni cognitive [77.71680953280436]
本研究の目的は,トランスフォーマーに基づくニューラルネットワークモデルが語彙意味論を推論するかどうかを検討することである。
考慮される意味的性質は、テリシティ(定性とも組み合わされる)と作用性である。
論文 参考訳(メタデータ) (2023-07-06T10:52:22Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Seeing Both the Forest and the Trees: Multi-head Attention for Joint
Classification on Different Compositional Levels [15.453888735879525]
自然言語では、単語は関連して文を構成するために使用される。
より低い言語的コンポーネントと高い言語的コンポーネントを明確に結び付けるディープニューラルネットワークアーキテクチャを設計する。
我々のモデルであるMHALは、異なるレベルの粒度でそれらを同時に解くことを学習していることを示す。
論文 参考訳(メタデータ) (2020-11-01T10:44:46Z) - Do Neural Language Models Show Preferences for Syntactic Formalisms? [14.388237635684737]
本研究では,言語モデルが捉えた構文構造のセマンランスが,表面シンタクティックあるいは深層構文解析の様式にどの程度依存しているかについて検討する。
13の異なる言語で訓練されたBERTおよびELMoモデルに対して,有向依存木抽出のためのプローブを適用した。
どちらのモデルも、SUDよりもUDを好むことが分かりました。
論文 参考訳(メタデータ) (2020-04-29T11:37:53Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。