論文の概要: Positional Artefacts Propagate Through Masked Language Model Embeddings
- arxiv url: http://arxiv.org/abs/2011.04393v3
- Date: Tue, 25 May 2021 01:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 00:59:10.035862
- Title: Positional Artefacts Propagate Through Masked Language Model Embeddings
- Title(参考訳): マスキング言語モデル埋め込みによる位置アーチファクトの伝播
- Authors: Ziyang Luo, Artur Kulmizev, Xiaoxi Mao
- Abstract要約: BERT と RoBERTa の隠れ状態ベクトル内で持続性外方ニューロンの症例が発見された。
我々はRoBERTaベースモデルをスクラッチから事前訓練し、位置埋め込みを使わずに外れ値が消えることを見出した。
- 参考スコア(独自算出の注目度): 16.97378491957158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we demonstrate that the contextualized word vectors derived
from pretrained masked language model-based encoders share a common, perhaps
undesirable pattern across layers. Namely, we find cases of persistent outlier
neurons within BERT and RoBERTa's hidden state vectors that consistently bear
the smallest or largest values in said vectors. In an attempt to investigate
the source of this information, we introduce a neuron-level analysis method,
which reveals that the outliers are closely related to information captured by
positional embeddings. We also pre-train the RoBERTa-base models from scratch
and find that the outliers disappear without using positional embeddings. These
outliers, we find, are the major cause of anisotropy of encoders' raw vector
spaces, and clipping them leads to increased similarity across vectors. We
demonstrate this in practice by showing that clipped vectors can more
accurately distinguish word senses, as well as lead to better sentence
embeddings when mean pooling. In three supervised tasks, we find that clipping
does not affect the performance.
- Abstract(参考訳): 本研究では,事前学習したマスキング言語モデルに基づくエンコーダから得られる文脈化された単語ベクトルが,レイヤ間の共通かつ望ましくないパターンを共有することを示す。
すなわち、BERT と RoBERTa の隠れ状態ベクトル内の持続性外方ニューロンのケースが、そのベクトルの最小または最大の値を常に保持している。
この情報源を探究するため,ニューロンレベルの解析手法を導入し,位置埋め込みによって取得した情報とアウトリーチが密接な関係があることを明らかにする。
また,RoBERTaベースモデルをスクラッチから事前訓練し,位置埋め込みを使わずに外れ値が消えることを見出した。
これらの外れ値はエンコーダの生ベクトル空間の異方性の主要な原因であり、切断することでベクトル間の類似性が増大する。
クリッピングベクターが単語の感覚をより正確に識別し、プールの際の文の埋め込みを改善することを示し、実際にこれを実証する。
3つの教師付きタスクでは、クリッピングはパフォーマンスに影響を与えない。
関連論文リスト
- Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Local Topology Measures of Contextual Language Model Latent Spaces With Applications to Dialogue Term Extraction [4.887047578768969]
本稿では,文脈言語モデルの潜在空間の局所位相の複雑性尺度を導入する。
我々の研究は、単語埋め込みの多様体仮説を探求する一連の研究を継続している。
論文 参考訳(メタデータ) (2024-08-07T11:44:32Z) - Knowledge Trees: Gradient Boosting Decision Trees on Knowledge Neurons
as Probing Classifier [0.0]
変圧器ニューラルネットワーク層の出力表現におけるロジスティック回帰は、言語モデルの構文特性の探索に最もよく用いられる。
本研究では, 変圧器層の出力表現におけるロジスティック回帰を用いた場合よりも, 知識ニューロン層での勾配向上決定木を用いた方が有利であることを示す。
論文 参考訳(メタデータ) (2023-12-17T15:37:03Z) - Backpack Language Models [108.65930795825416]
Backpacksは、強力なモデリング性能と、解釈可能性と制御のためのインターフェースを組み合わせた、新しいニューラルアーキテクチャである。
学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。
本稿では,感覚ベクトルに介入し,制御可能なテキスト生成とデバイアスを行うシンプルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:26:23Z) - Tsetlin Machine Embedding: Representing Words Using Logical Expressions [10.825099126920028]
本稿では,論理節を自己教師する自動エンコーダについて紹介する。
節は、"black"、"cup"、"hot"のような文脈的な単語からなり、"coffee"のような他の単語を定義する。
我々は,GLoVeを6つの分類タスクで上回り,いくつかの内在的および外在的ベンチマークに対する埋め込み手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-02T15:02:45Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - Leveraging Sparse Linear Layers for Debuggable Deep Networks [86.94586860037049]
学習した深い特徴表現に疎い線形モデルを適用することで、よりデバッグ可能なニューラルネットワークを実現する方法を示す。
その結果、スパースな説明は、スプリアス相関を特定し、誤分類を説明し、視覚および言語タスクにおけるモデルバイアスを診断するのに役立ちます。
論文 参考訳(メタデータ) (2021-05-11T08:15:25Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。