論文の概要: Metric-Learning Encoding Models Identify Processing Profiles of
Linguistic Features in BERT's Representations
- arxiv url: http://arxiv.org/abs/2402.11608v1
- Date: Sun, 18 Feb 2024 14:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 20:09:12.314185
- Title: Metric-Learning Encoding Models Identify Processing Profiles of
Linguistic Features in BERT's Representations
- Title(参考訳): BERT表現における言語特徴の処理プロファイルを識別するメトリック学習符号化モデル
- Authors: Louis Jalouzot, Robin Sobczyk, Bastien Lhopitallier, Jeanne Salle, Nur
Lan, Emmanuel Chemla, Yair Lakretz
- Abstract要約: メトリックラーニングモデル(MLEM)は、ニューラルネットワークが処理対象の理論的特徴をどのように表現するかを理解するための新しいアプローチである。
MLEMは、他のドメイン(例えば視覚)や人間の脳などの他の神経系に拡張することができる。
- 参考スコア(独自算出の注目度): 5.893248479095486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Metric-Learning Encoding Models (MLEMs) as a new approach to
understand how neural systems represent the theoretical features of the objects
they process. As a proof-of-concept, we apply MLEMs to neural representations
extracted from BERT, and track a wide variety of linguistic features (e.g.,
tense, subject person, clause type, clause embedding). We find that: (1)
linguistic features are ordered: they separate representations of sentences to
different degrees in different layers; (2) neural representations are organized
hierarchically: in some layers, we find clusters of representations nested
within larger clusters, following successively important linguistic features;
(3) linguistic features are disentangled in middle layers: distinct, selective
units are activated by distinct linguistic features. Methodologically, MLEMs
are superior (4) to multivariate decoding methods, being more robust to type-I
errors, and (5) to univariate encoding methods, in being able to predict both
local and distributed representations. Together, this demonstrates the utility
of Metric-Learning Encoding Methods for studying how linguistic features are
neurally encoded in language models and the advantage of MLEMs over traditional
methods. MLEMs can be extended to other domains (e.g. vision) and to other
neural systems, such as the human brain.
- Abstract(参考訳): 我々は、ニューラルネットワークが処理対象の理論的特徴をどのように表現するかを理解するための新しいアプローチとして、Metric-Learning Encoding Models (MLEMs)を紹介した。
概念実証として,BERTから抽出した神経表現にMLEMを適用し,多種多様な言語的特徴(時制,主観的人格,節型,節の埋め込みなど)を追跡する。
1) 言語的特徴は順序づけられる: 異なる層で異なる程度に異なる文の表現を分離する; 2) 神経的表現は階層的に整理される: いくつかの層では、より大きなクラスターの中に入れ替わる表現の集合体が、連続して重要な言語的特徴に従って見つかる; (3) 言語的特徴は中間層で不連続である: 区別的、選択的単位は異なる言語的特徴によって活性化される。
メソジカルには、MLEMは多変量復号法よりも優れ、型Iエラーに対してより堅牢であり、(5)局所表現と分散表現の両方を予測することができる。
これは、言語モデルにおける言語的特徴のニューラルエンコード方法の研究におけるメトリックラーニング符号化法の有用性と、従来の手法よりもMLEMの利点を示すものである。
MLEMは、他のドメイン(例えば視覚)や人間の脳などの他の神経系に拡張することができる。
関連論文リスト
- Large Language Models as Neurolinguistic Subjects: Identifying Internal Representations for Form and Meaning [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
伝統的な精神言語学的評価は、しばしばLSMの真の言語能力を誤って表現する統計バイアスを反映している。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。
本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-21T12:54:03Z) - What Makes Two Language Models Think Alike? [6.244579327420724]
本稿では,メタラーニング符号化モデル(MLEM)に基づく新しい手法を提案する。
MLEMは、類似性と相違の原因となる特定の言語的特徴を特定することによって、透過的な比較を提供する。
このアプローチは、音声や視覚などの他の領域や、人間の脳を含む他の神経系にも直接拡張できる。
論文 参考訳(メタデータ) (2024-06-18T13:45:50Z) - Decoding Probing: Revealing Internal Linguistic Structures in Neural Language Models using Minimal Pairs [0.873811641236639]
本稿では,ニューラルネットワークモデル層の内部言語特性を層単位で探索する新しい復号探索手法を提案する。
言語モデルを脳として扱い、その表現をニューラルアクティベーションとして扱うことにより、中間層の表現から最小対の文法ラベルをデコードする。
論文 参考訳(メタデータ) (2024-03-26T00:56:06Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Investigating semantic subspaces of Transformer sentence embeddings
through linear structural probing [2.5002227227256864]
本研究では,文レベル表現の研究手法である意味構造探索を用いた実験を行う。
本手法は,2つのタスクの文脈において,異なる言語モデル(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)と異なる大きさの言語モデルに適用する。
モデルファミリは、その性能と層動力学において大きく異なるが、結果は大半がモデルサイズの不変量である。
論文 参考訳(メタデータ) (2023-10-18T12:32:07Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - What does it mean to be language-agnostic? Probing multilingual sentence
encoders for typological properties [17.404220737977738]
最先端の多言語エンコーダから文表現を探索する手法を提案する。
本研究は,異なる事前学習戦略に関連する言語変化の符号化における興味深い違いを示す。
論文 参考訳(メタデータ) (2020-09-27T15:00:52Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。