論文の概要: Lost in Context? On the Sense-wise Variance of Contextualized Word
Embeddings
- arxiv url: http://arxiv.org/abs/2208.09669v1
- Date: Sat, 20 Aug 2022 12:27:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 12:59:07.855135
- Title: Lost in Context? On the Sense-wise Variance of Contextualized Word
Embeddings
- Title(参考訳): コンテキストにおける損失?
文脈的単語埋め込みの感覚的変化について
- Authors: Yile Wang and Yue Zhang
- Abstract要約: 各単語感覚の文脈的埋め込みが、典型的な事前学習モデルにおける文脈によってどの程度異なるかを定量化する。
単語表現は位置バイアスを受けており、異なる文脈における最初の単語はより類似する傾向にある。
- 参考スコア(独自算出の注目度): 11.475144702935568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextualized word embeddings in language models have given much advance to
NLP. Intuitively, sentential information is integrated into the representation
of words, which can help model polysemy. However, context sensitivity also
leads to the variance of representations, which may break the semantic
consistency for synonyms. We quantify how much the contextualized embeddings of
each word sense vary across contexts in typical pre-trained models. Results
show that contextualized embeddings can be highly consistent across contexts.
In addition, part-of-speech, number of word senses, and sentence length have an
influence on the variance of sense representations. Interestingly, we find that
word representations are position-biased, where the first words in different
contexts tend to be more similar. We analyze such a phenomenon and also propose
a simple way to alleviate such bias in distance-based word sense disambiguation
settings.
- Abstract(参考訳): 言語モデルにおける文脈化された単語埋め込みは、NLPに大きな進歩をもたらした。
直感的には、センテンシャル情報は単語の表現に統合され、ポリセミーのモデル化に役立つ。
しかし、文脈の感度は表現のばらつきにもつながり、同義語の意味的一貫性を損なう可能性がある。
各単語感覚の文脈的埋め込みが、典型的な事前学習モデルの文脈によってどの程度異なるかを定量化する。
その結果、コンテキスト化された埋め込みはコンテキスト間で高度に一貫性を持つことができる。
さらに, 音声のパート・オブ・スペル, 単語知覚数, 文長は, 感覚表現のばらつきに影響を及ぼす。
興味深いことに、単語表現は位置バイアスがあり、異なる文脈における最初の単語はより類似する傾向にある。
このような現象を分析し,距離に基づく単語認識の曖昧さを緩和するための簡易な方法を提案する。
関連論文リスト
- Investigating Idiomaticity in Word Representations [9.208145117062339]
我々は2つの言語(英語とポルトガル語)における様々な水準の慣用性を持つ名詞に焦点をあてる。
そこで本研究では,各名詞の音韻性判定を含む最小対のデータセットについて,タイプレベルとトークンレベルの両方で示す。
AffinityとScaled similarityの詳細なメトリクスセットを定義し、モデルが慣用性の変化につながる可能性のある摂動に対してどれほど敏感であるかを判断する。
論文 参考訳(メタデータ) (2024-11-04T21:05:01Z) - Conjuring Semantic Similarity [59.18714889874088]
2つのテキスト表現間の意味的類似性は、潜伏者の「意味」の間の距離を測定する
テキスト表現間の意味的類似性は、他の表現を言い換えるのではなく、それらが引き起こすイメージに基づいている、という新しいアプローチを提案する。
提案手法は,人間の注釈付きスコアに適合するだけでなく,テキスト条件付き生成モデル評価のための新たな道を開く意味的類似性に関する新たな視点を提供する。
論文 参考訳(メタデータ) (2024-10-21T18:51:34Z) - The Impact of Word Splitting on the Semantic Content of Contextualized
Word Representations [3.4668147567693453]
分割される単語の表現の質は、しばしば、必ずしも、既知の単語の埋め込みの質よりも悪いとは限らない。
分析の結果, 単語の表現の質は, 単語の埋め込みよりも必ずしも悪くはないことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-22T15:04:24Z) - Neighboring Words Affect Human Interpretation of Saliency Explanations [65.29015910991261]
単語レベルのサリエンシの説明は、しばしばテキストベースのモデルで特徴属性を伝えるために使われる。
近年の研究では、単語の長さなどの表面的要因が、コミュニケーションされたサリエンシスコアの人間の解釈を歪めてしまうことが報告されている。
本研究では,単語の近傍にある単語のマーキングが,その単語の重要性に対する説明者の認識にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-04T09:50:25Z) - SensePOLAR: Word sense aware interpretability for pre-trained contextual
word embeddings [4.479834103607384]
単語埋め込みに解釈可能性を加えることは、テキスト表現における活発な研究の領域である。
本稿では,従来のPOLARフレームワークを拡張したSensePOLARを提案する。
論文 参考訳(メタデータ) (2023-01-11T20:25:53Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Exploring the Representation of Word Meanings in Context: A Case Study
on Homonymy and Synonymy [0.0]
我々は,静的モデルと文脈モデルの両方が,語彙-意味関係を適切に表現できる能力を評価する。
実験はガリシア語、ポルトガル語、英語、スペイン語で行われている。
論文 参考訳(メタデータ) (2021-06-25T10:54:23Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。