Fugu-MT 論文翻訳(概要): Metric-Learning Encoding Models Identify Processing Profiles of Linguistic Features in BERT's Representations

論文の概要: Metric-Learning Encoding Models Identify Processing Profiles of Linguistic Features in BERT's Representations

arxiv url: http://arxiv.org/abs/2402.11608v1
Date: Sun, 18 Feb 2024 14:57:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 20:09:12.314185
Title: Metric-Learning Encoding Models Identify Processing Profiles of Linguistic Features in BERT's Representations
Title（参考訳）: BERT表現における言語特徴の処理プロファイルを識別するメトリック学習符号化モデル
Authors: Louis Jalouzot, Robin Sobczyk, Bastien Lhopitallier, Jeanne Salle, Nur Lan, Emmanuel Chemla, Yair Lakretz
Abstract要約: メトリックラーニングモデル(MLEM)は、ニューラルネットワークが処理対象の理論的特徴をどのように表現するかを理解するための新しいアプローチである。 MLEMは、他のドメイン(例えば視覚)や人間の脳などの他の神経系に拡張することができる。
参考スコア（独自算出の注目度）: 5.893248479095486
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Metric-Learning Encoding Models (MLEMs) as a new approach to understand how neural systems represent the theoretical features of the objects they process. As a proof-of-concept, we apply MLEMs to neural representations extracted from BERT, and track a wide variety of linguistic features (e.g., tense, subject person, clause type, clause embedding). We find that: (1) linguistic features are ordered: they separate representations of sentences to different degrees in different layers; (2) neural representations are organized hierarchically: in some layers, we find clusters of representations nested within larger clusters, following successively important linguistic features; (3) linguistic features are disentangled in middle layers: distinct, selective units are activated by distinct linguistic features. Methodologically, MLEMs are superior (4) to multivariate decoding methods, being more robust to type-I errors, and (5) to univariate encoding methods, in being able to predict both local and distributed representations. Together, this demonstrates the utility of Metric-Learning Encoding Methods for studying how linguistic features are neurally encoded in language models and the advantage of MLEMs over traditional methods. MLEMs can be extended to other domains (e.g. vision) and to other neural systems, such as the human brain.
Abstract（参考訳）: 我々は、ニューラルネットワークが処理対象の理論的特徴をどのように表現するかを理解するための新しいアプローチとして、Metric-Learning Encoding Models (MLEMs)を紹介した。概念実証として,BERTから抽出した神経表現にMLEMを適用し,多種多様な言語的特徴(時制,主観的人格,節型,節の埋め込みなど)を追跡する。 1) 言語的特徴は順序づけられる: 異なる層で異なる程度に異なる文の表現を分離する; 2) 神経的表現は階層的に整理される: いくつかの層では、より大きなクラスターの中に入れ替わる表現の集合体が、連続して重要な言語的特徴に従って見つかる; (3) 言語的特徴は中間層で不連続である: 区別的、選択的単位は異なる言語的特徴によって活性化される。メソジカルには、MLEMは多変量復号法よりも優れ、型Iエラーに対してより堅牢であり、(5)局所表現と分散表現の両方を予測することができる。これは、言語モデルにおける言語的特徴のニューラルエンコード方法の研究におけるメトリックラーニング符号化法の有用性と、従来の手法よりもMLEMの利点を示すものである。 MLEMは、他のドメイン(例えば視覚)や人間の脳などの他の神経系に拡張することができる。

関連論文リスト

Large Language Models Share Representations of Latent Grammatical Concepts Across Typologically Diverse Languages [15.203789021094982]
大規模言語モデル(LLM)では、複数の言語がどのように学習され、エンコードされているか? Llama-3-8BとAya-23-8Bでスパースオートエンコーダを訓練し、抽象文法の概念が多くの言語で共有される特徴方向に符号化されることを実証する。
論文参考訳（メタデータ） (2025-01-10T21:18:21Z)
Analysis and Visualization of Linguistic Structures in Large Language Models: Neural Representations of Verb-Particle Constructions in BERT [0.0]
本研究では,大言語モデル(LLM)における動詞-助詞の組み合わせの内部表現について検討する。我々は'agree on'、'come back'、'give up'といった様々な動詞粒子構築のための各層の表現効果を分析する。その結果,BERTの中間層は,各動詞カテゴリの表現精度に有意なばらつきがあり,構文構造を効果的に捉えていることがわかった。
論文参考訳（メタデータ） (2024-12-19T09:21:39Z)
Large Language Models as Neurolinguistic Subjects: Identifying Internal Representations for Form and Meaning [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。伝統的な精神言語学的評価は、しばしばLSMの真の言語能力を誤って表現する統計バイアスを反映している。ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-12T04:16:44Z)
Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文参考訳（メタデータ） (2024-11-11T16:33:25Z)
Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文参考訳（メタデータ） (2024-06-21T12:54:03Z)
What Makes Two Language Models Think Alike? [6.244579327420724]
本稿では,メタラーニング符号化モデル(MLEM)に基づく新しい手法を提案する。 MLEMは、類似性と相違の原因となる特定の言語的特徴を特定することによって、透過的な比較を提供する。このアプローチは、音声や視覚などの他の領域や、人間の脳を含む他の神経系にも直接拡張できる。
論文参考訳（メタデータ） (2024-06-18T13:45:50Z)
Decoding Probing: Revealing Internal Linguistic Structures in Neural Language Models using Minimal Pairs [0.873811641236639]
本稿では,ニューラルネットワークモデル層の内部言語特性を層単位で探索する新しい復号探索手法を提案する。言語モデルを脳として扱い、その表現をニューラルアクティベーションとして扱うことにより、中間層の表現から最小対の文法ラベルをデコードする。
論文参考訳（メタデータ） (2024-03-26T00:56:06Z)
Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文参考訳（メタデータ） (2024-02-26T09:36:05Z)
Investigating semantic subspaces of Transformer sentence embeddings through linear structural probing [2.5002227227256864]
本研究では,文レベル表現の研究手法である意味構造探索を用いた実験を行う。本手法は,2つのタスクの文脈において,異なる言語モデル(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)と異なる大きさの言語モデルに適用する。モデルファミリは、その性能と層動力学において大きく異なるが、結果は大半がモデルサイズの不変量である。
論文参考訳（メタデータ） (2023-10-18T12:32:07Z)
A Multi-level Supervised Contrastive Learning Framework for Low-Resource Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-31T05:54:18Z)
Low-Dimensional Structure in the Space of Language Representations is Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文参考訳（メタデータ） (2021-06-09T22:59:12Z)
What does it mean to be language-agnostic? Probing multilingual sentence encoders for typological properties [17.404220737977738]
最先端の多言語エンコーダから文表現を探索する手法を提案する。本研究は,異なる事前学習戦略に関連する言語変化の符号化における興味深い違いを示す。
論文参考訳（メタデータ） (2020-09-27T15:00:52Z)
Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文参考訳（メタデータ） (2020-09-10T03:53:18Z)
Linguistic Typology Features from Text: Inferring the Sparse Features of World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。様々な言語型の特徴を確実に予測できることを示す。
論文参考訳（メタデータ） (2020-04-30T21:00:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。