論文の概要: Metric-Learning Encoding Models Identify Processing Profiles of
Linguistic Features in BERT's Representations
- arxiv url: http://arxiv.org/abs/2402.11608v1
- Date: Sun, 18 Feb 2024 14:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 20:09:12.314185
- Title: Metric-Learning Encoding Models Identify Processing Profiles of
Linguistic Features in BERT's Representations
- Title(参考訳): BERT表現における言語特徴の処理プロファイルを識別するメトリック学習符号化モデル
- Authors: Louis Jalouzot, Robin Sobczyk, Bastien Lhopitallier, Jeanne Salle, Nur
Lan, Emmanuel Chemla, Yair Lakretz
- Abstract要約: メトリックラーニングモデル(MLEM)は、ニューラルネットワークが処理対象の理論的特徴をどのように表現するかを理解するための新しいアプローチである。
MLEMは、他のドメイン(例えば視覚)や人間の脳などの他の神経系に拡張することができる。
- 参考スコア(独自算出の注目度): 5.893248479095486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Metric-Learning Encoding Models (MLEMs) as a new approach to
understand how neural systems represent the theoretical features of the objects
they process. As a proof-of-concept, we apply MLEMs to neural representations
extracted from BERT, and track a wide variety of linguistic features (e.g.,
tense, subject person, clause type, clause embedding). We find that: (1)
linguistic features are ordered: they separate representations of sentences to
different degrees in different layers; (2) neural representations are organized
hierarchically: in some layers, we find clusters of representations nested
within larger clusters, following successively important linguistic features;
(3) linguistic features are disentangled in middle layers: distinct, selective
units are activated by distinct linguistic features. Methodologically, MLEMs
are superior (4) to multivariate decoding methods, being more robust to type-I
errors, and (5) to univariate encoding methods, in being able to predict both
local and distributed representations. Together, this demonstrates the utility
of Metric-Learning Encoding Methods for studying how linguistic features are
neurally encoded in language models and the advantage of MLEMs over traditional
methods. MLEMs can be extended to other domains (e.g. vision) and to other
neural systems, such as the human brain.
- Abstract(参考訳): 我々は、ニューラルネットワークが処理対象の理論的特徴をどのように表現するかを理解するための新しいアプローチとして、Metric-Learning Encoding Models (MLEMs)を紹介した。
概念実証として,BERTから抽出した神経表現にMLEMを適用し,多種多様な言語的特徴(時制,主観的人格,節型,節の埋め込みなど)を追跡する。
1) 言語的特徴は順序づけられる: 異なる層で異なる程度に異なる文の表現を分離する; 2) 神経的表現は階層的に整理される: いくつかの層では、より大きなクラスターの中に入れ替わる表現の集合体が、連続して重要な言語的特徴に従って見つかる; (3) 言語的特徴は中間層で不連続である: 区別的、選択的単位は異なる言語的特徴によって活性化される。
メソジカルには、MLEMは多変量復号法よりも優れ、型Iエラーに対してより堅牢であり、(5)局所表現と分散表現の両方を予測することができる。
これは、言語モデルにおける言語的特徴のニューラルエンコード方法の研究におけるメトリックラーニング符号化法の有用性と、従来の手法よりもMLEMの利点を示すものである。
MLEMは、他のドメイン(例えば視覚)や人間の脳などの他の神経系に拡張することができる。
関連論文リスト
- Understanding the role of FFNs in driving multilingual behaviour in LLMs [0.0]
本稿では,大規模言語モデル群における多言語機能の詳細な分析を行う。
異なるレイヤにおけるモデルの多言語的振る舞いを探索する新しいメトリクスを導入し、多言語処理におけるアーキテクチャ選択の影響について光を当てる。
論文 参考訳(メタデータ) (2024-04-22T03:47:00Z) - Decoding Probing: Revealing Internal Linguistic Structures in Neural Language Models using Minimal Pairs [0.873811641236639]
本稿では,ニューラルネットワークモデル層の内部言語特性を層単位で探索する新しい復号探索手法を提案する。
言語モデルを脳として扱い、その表現をニューラルアクティベーションとして扱うことにより、中間層の表現から最小対の文法ラベルをデコードする。
論文 参考訳(メタデータ) (2024-03-26T00:56:06Z) - How do Large Language Models Handle Multilingualism? [87.06210331315451]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMの多言語入力処理を記述したフレームワークを提案する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large
Language Models [122.25217086389425]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Probing LLMs for Joint Encoding of Linguistic Categories [10.988109020181563]
大規模言語モデル(LLM)における言語カテゴリーの合同符号化をテストするためのフレームワークを提案する。
関連音声(POS)クラスと異なる(POSクラスと関連する構文依存関係)言語階層の双方で共同符号化の証拠を見いだした。
論文 参考訳(メタデータ) (2023-10-28T12:46:40Z) - Investigating semantic subspaces of Transformer sentence embeddings
through linear structural probing [2.5002227227256864]
本研究では,文レベル表現の研究手法である意味構造探索を用いた実験を行う。
本手法は,2つのタスクの文脈において,異なる言語モデル(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)と異なる大きさの言語モデルに適用する。
モデルファミリは、その性能と層動力学において大きく異なるが、結果は大半がモデルサイズの不変量である。
論文 参考訳(メタデータ) (2023-10-18T12:32:07Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - What does it mean to be language-agnostic? Probing multilingual sentence
encoders for typological properties [17.404220737977738]
最先端の多言語エンコーダから文表現を探索する手法を提案する。
本研究は,異なる事前学習戦略に関連する言語変化の符号化における興味深い違いを示す。
論文 参考訳(メタデータ) (2020-09-27T15:00:52Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。