論文の概要: The Low-Dimensional Linear Geometry of Contextualized Word
Representations
- arxiv url: http://arxiv.org/abs/2105.07109v1
- Date: Sat, 15 May 2021 00:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:53:19.832933
- Title: The Low-Dimensional Linear Geometry of Contextualized Word
Representations
- Title(参考訳): 文脈化単語表現の低次元線形幾何学
- Authors: Evan Hernandez and Jacob Andreas
- Abstract要約: ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。
様々な言語特徴が低次元部分空間に符号化されていることを示す。
- 参考スコア(独自算出の注目度): 27.50785941238007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Black-box probing models can reliably extract linguistic features like tense,
number, and syntactic role from pretrained word representations. However, the
manner in which these features are encoded in representations remains poorly
understood. We present a systematic study of the linear geometry of
contextualized word representations in ELMO and BERT. We show that a variety of
linguistic features (including structured dependency relationships) are encoded
in low-dimensional subspaces. We then refine this geometric picture, showing
that there are hierarchical relations between the subspaces encoding general
linguistic categories and more specific ones, and that low-dimensional feature
encodings are distributed rather than aligned to individual neurons. Finally,
we demonstrate that these linear subspaces are causally related to model
behavior, and can be used to perform fine-grained manipulation of BERT's output
distribution.
- Abstract(参考訳): ブラックボックス探索モデルは、事前訓練された単語表現から時制、数、構文的役割などの言語的特徴を確実に抽出することができる。
しかし、これらの特徴が表現にエンコードされる方法はあまり理解されていない。
本稿では,ELMO と BERT における文脈化語表現の線形幾何学に関する体系的研究を行う。
多様な言語的特徴(構造化依存関係を含む)が低次元部分空間に符号化されていることを示す。
次に、この幾何学的図式を洗練し、一般言語圏を符号化する部分空間とより特定の部分空間の間に階層的な関係があることを示し、低次元の特徴エンコーディングは個々のニューロンに配列するよりもむしろ分散されることを示した。
最後に、これらの線形部分空間はモデル挙動と因果関係があり、BERTの出力分布のきめ細かい操作に使用できることを示す。
関連論文リスト
- Implicit Geometry of Next-token Prediction: From Language Sparsity Patterns to Model Representations [24.211603400355756]
大規模テキストコーパス上でのNTP(Next-token Prediction)は,大規模言語モデルの学習のパラダイムとなっている。
得られたモデル表現の幾何学的特性に対する言語パターンのマッピングにNTPがどう影響するかを考察する。
合成および小規模な実言語データセットについて,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-08-27T21:46:47Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Linearity of Relation Decoding in Transformer Language Models [82.47019600662874]
トランスフォーマー言語モデル(LM)で符号化された知識の多くは、関係性の観点から表現することができる。
関係のサブセットに対して、この計算は対象表現上の1つの線形変換によってよく近似されることを示す。
論文 参考訳(メタデータ) (2023-08-17T17:59:19Z) - Representation Of Lexical Stylistic Features In Language Models'
Embedding Space [28.60690854046176]
これらのスタイリスティックな概念のそれぞれに対して,少数のシードペアのみからベクトル表現を導出できることが示されている。
5つのデータセットで実験を行い、静的な埋め込みがこれらの特徴を単語やフレーズのレベルでより正確にエンコードすることを発見した。
単語レベルでの文脈化表現の低い性能は、ベクトル空間の異方性に起因する。
論文 参考訳(メタデータ) (2023-05-29T23:44:26Z) - Linear Spaces of Meanings: Compositional Structures in Vision-Language
Models [110.00434385712786]
事前学習された視覚言語モデル(VLM)からのデータ埋め込みにおける構成構造について検討する。
まず,幾何学的観点から構成構造を理解するための枠組みを提案する。
次に、これらの構造がVLM埋め込みの場合の確率論的に持つものを説明し、実際に発生する理由の直観を提供する。
論文 参考訳(メタデータ) (2023-02-28T08:11:56Z) - Cross-Lingual BERT Contextual Embedding Space Mapping with Isotropic and
Isometric Conditions [7.615096161060399]
並列コーパスを利用した文脈認識・辞書フリーマッピング手法について検討する。
本研究は, 正規化文脈埋め込み空間における等方性, 等方性, 等方性の間の密接な関係を解明するものである。
論文 参考訳(メタデータ) (2021-07-19T22:57:36Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - Representing Syntax and Composition with Geometric Transformations [1.439493901412045]
単語の文脈としての構文グラフ(SyG)は分布意味モデル(DSM)に有用であることが示されている。
本稿では,GTが構文的関係をよりよく符号化し,これらの表現を構文的文脈化による句レベル構成の強化に利用できるかを検討する。
論文 参考訳(メタデータ) (2021-06-03T14:53:34Z) - An Interpretability Illusion for BERT [61.2687465308121]
BERTモデル解析時に生じる「解釈性イリュージョン」について述べる。
このイリュージョンの源をBERTの埋め込み空間の幾何学的性質にトレースする。
モデル学習概念の分類法を提供し,解釈可能性研究の方法論的意義について論じる。
論文 参考訳(メタデータ) (2021-04-14T22:04:48Z) - Emergence of Separable Manifolds in Deep Language Representations [26.002842878797765]
ディープニューラルネットワーク(DNN)は、様々な認知的モダリティをまたいだ知覚的タスクの解決において、非常に経験的な成功を示している。
最近の研究では、タスク最適化DNNから抽出された表現と脳内の神経集団の間にかなりの類似性が報告されている。
DNNは後に、複雑な認知機能の基礎となる計算原理を推論する一般的なモデルクラスとなった。
論文 参考訳(メタデータ) (2020-06-01T17:23:44Z) - APo-VAE: Text Generation in Hyperbolic Space [116.11974607497986]
本稿では,双曲型潜在空間におけるテキスト生成について検討し,連続的な階層表現を学習する。
適応型ポインケア可変オートエンコーダ (APo-VAE) を提示し, ポインケア球上における潜伏変数の事前および変動後部の両方を包み込み正規分布により定義する。
言語モデリングと対話応答生成における実験は,提案したAPo-VAEモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-04-30T19:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。