論文の概要: Learning to Remove: Towards Isotropic Pre-trained BERT Embedding
- arxiv url: http://arxiv.org/abs/2104.05274v1
- Date: Mon, 12 Apr 2021 08:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:21:07.096482
- Title: Learning to Remove: Towards Isotropic Pre-trained BERT Embedding
- Title(参考訳): 除去のための学習:等方性事前学習BERT埋め込みを目指して
- Authors: Yuxin Liang, Rui Cao, Jie Zheng, Jie Ren, Ling Gao
- Abstract要約: 単語表現の研究は、等方的埋め込みが下流タスクの性能を大幅に改善できることを示している。
事前に訓練されたBERT埋め込みのジオメトリを測定し、分析し、等方性とは程遠いことを見つけます。
この問題を解決するためのシンプルで効果的な方法を提案する:学習可能な重みのセットでBERT埋め込みのいくつかの支配的な方向を削除します。
- 参考スコア(独自算出の注目度): 7.765987411382461
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pre-trained language models such as BERT have become a more common choice of
natural language processing (NLP) tasks. Research in word representation shows
that isotropic embeddings can significantly improve performance on downstream
tasks. However, we measure and analyze the geometry of pre-trained BERT
embedding and find that it is far from isotropic. We find that the word vectors
are not centered around the origin, and the average cosine similarity between
two random words is much higher than zero, which indicates that the word
vectors are distributed in a narrow cone and deteriorate the representation
capacity of word embedding. We propose a simple, and yet effective method to
fix this problem: remove several dominant directions of BERT embedding with a
set of learnable weights. We train the weights on word similarity tasks and
show that processed embedding is more isotropic. Our method is evaluated on
three standardized tasks: word similarity, word analogy, and semantic textual
similarity. In all tasks, the word embedding processed by our method
consistently outperforms the original embedding (with average improvement of
13% on word analogy and 16% on semantic textual similarity) and two baseline
methods. Our method is also proven to be more robust to changes of
hyperparameter.
- Abstract(参考訳): BERTのような事前訓練された言語モデルは、自然言語処理(NLP)タスクのより一般的な選択となっている。
単語表現の研究は、等方的埋め込みが下流タスクの性能を大幅に改善できることを示している。
しかし,事前学習したBERT埋め込みの形状を測定し解析した結果,等方性には程遠いことがわかった。
単語ベクトルは原点を中心とせず、2つのランダムな単語間の平均コサイン類似度は0よりもはるかに高く、単語ベクトルが狭い円錐に分散され、単語埋め込みの表現能力が低下していることを示す。
そこで本研究では,BERT の重みを学習可能な重みで埋め込む方法として,この問題を解決するための単純かつ効果的な方法を提案する。
単語類似度タスクの重み付けをトレーニングし、処理された埋め込みがより等方的であることを示す。
本手法は,単語類似性,単語類似性,意味的テキスト類似性という3つの標準化タスクで評価される。
全てのタスクにおいて、我々の方法で処理された単語埋め込みは、元の埋め込みよりも一貫して優れている(単語類似性の平均13%、意味的テキスト類似性16%)。
また,本手法はハイパーパラメータの変化に対してより堅牢であることが証明された。
関連論文リスト
- Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Perturbing Inputs for Fragile Interpretations in Deep Natural Language
Processing [18.91129968022831]
解釈可能性の手法は、医療や金融などの高い分野における信頼できるNLPアプリケーションにとって堅牢である必要がある。
本稿では,入力テキスト上で単純な単語摂動を行うことで,解釈がどのように操作できるかを示す。
論文 参考訳(メタデータ) (2021-08-11T02:07:21Z) - Word2rate: training and evaluating multiple word embeddings as
statistical transitions [4.350783459690612]
単語順に敏感なタスクのパフォーマンスを向上させる,新しい左サイドコンテキスト分割目標を提案する。
私たちの word2rate モデルは、さまざまな言語タスクで競争しながら、レート行列を用いた統計基礎に基礎を置いている。
論文 参考訳(メタデータ) (2021-04-16T15:31:29Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Word Embeddings: Stability and Semantic Change [0.0]
本稿では,過去10年で最も影響力のある埋め込み技術である word2vec, GloVe, fastText のトレーニングプロセスの不安定性について実験的に検討する。
本稿では,埋め込み手法の不安定性を記述する統計モデルを提案し,個々の単語の表現の不安定性を測定するための新しい指標を提案する。
論文 参考訳(メタデータ) (2020-07-23T16:03:50Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。