論文の概要: Semantics or spelling? Probing contextual word embeddings with orthographic noise
- arxiv url: http://arxiv.org/abs/2408.04162v1
- Date: Thu, 8 Aug 2024 02:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 17:00:24.095312
- Title: Semantics or spelling? Probing contextual word embeddings with orthographic noise
- Title(参考訳): 意味論」か「綴り」か : 文脈的単語埋め込みによる正書法雑音の探索
- Authors: Jacob A. Matthews, John R. Starr, Marten van Schijndel,
- Abstract要約: PLMの隠蔽状態にどのような情報がエンコードされているのかは、正確には分かっていない。
驚いたことに、人気のあるPLMによって生成されるCWEは、入力データのノイズに非常に敏感である。
このことは、CWEが単語レベルの意味とは無関係な情報をキャプチャし、入力データの自明な修正によって操作できることを示唆している。
- 参考スコア(独自算出の注目度): 4.622165486890317
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pretrained language model (PLM) hidden states are frequently employed as contextual word embeddings (CWE): high-dimensional representations that encode semantic information given linguistic context. Across many areas of computational linguistics research, similarity between CWEs is interpreted as semantic similarity. However, it remains unclear exactly what information is encoded in PLM hidden states. We investigate this practice by probing PLM representations using minimal orthographic noise. We expect that if CWEs primarily encode semantic information, a single character swap in the input word will not drastically affect the resulting representation,given sufficient linguistic context. Surprisingly, we find that CWEs generated by popular PLMs are highly sensitive to noise in input data, and that this sensitivity is related to subword tokenization: the fewer tokens used to represent a word at input, the more sensitive its corresponding CWE. This suggests that CWEs capture information unrelated to word-level meaning and can be manipulated through trivial modifications of input data. We conclude that these PLM-derived CWEs may not be reliable semantic proxies, and that caution is warranted when interpreting representational similarity
- Abstract(参考訳): プレトレーニング言語モデル (PLM) 隠蔽状態は文脈語埋め込み (CWE) としてしばしば用いられる。
計算言語学研究の多くの分野において、CWE間の類似性は意味的類似性(semantic similarity)と解釈される。
しかし、PLMの隠蔽状態にどのような情報がエンコードされているのかは、正確には分かっていない。
最小の正弦波雑音を用いてPLM表現を探索することにより,この手法を検証した。
CWEが主に意味情報をエンコードしている場合、入力語中の単一の文字スワップが結果の表現に大きく影響しないことを期待する。
驚いたことに、人気のあるPLMによって生成されたCWEは入力データのノイズに非常に敏感であり、この感度はサブワードのトークン化と関連している。
このことは、CWEが単語レベルの意味とは無関係な情報をキャプチャし、入力データの自明な修正によって操作できることを示唆している。
PLM由来のCWEは信頼性のあるセマンティックプロキシではない可能性があり、表現的類似性を解釈する際には注意が必要であると結論付けている。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Investigating the Contextualised Word Embedding Dimensions Responsible for Contextual and Temporal Semantic Changes [30.563130208194977]
どのようにして変化が埋め込み空間にエンコードされるのかは、まだ不明である。
セマンティックチェンジベンチマークにおいて、事前訓練されたCWEとそれらの微調整されたバージョンを比較した。
以上の結果から, (a) 事前学習したCWE空間における単語の意味変化の原因となる軸は少ないが, 微調整された場合, 全次元に分散することがわかった。
論文 参考訳(メタデータ) (2024-07-03T05:42:20Z) - Self-Supervised Speech Representations are More Phonetic than Semantic [52.02626675137819]
自己教師付き音声モデル(S3Ms)は、音声応用の有効なバックボーンとなっている。
S3Msで符号化された単語レベルの言語特性のよりきめ細かい分析を求める。
本研究により,S3M表現は意味的類似性よりも連続的かつ顕著に音声的類似性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-06-12T20:04:44Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Can Pretrained Language Models Derive Correct Semantics from Corrupt
Subwords under Noise? [9.380410177526425]
本研究では, PLMの騒音による破壊的セグメンテーションに対するロバスト性を評価する。
ノイズおよび評価プロトコル下でのセグメンテーション腐敗の体系的分類を提供する。
実験結果から,音が全く異なるサブワード,小さなサブワードフラグメント,あるいは多数のサブワードを導入した場合,PLMは単語の意味を正確に計算できないことが示唆された。
論文 参考訳(メタデータ) (2023-06-27T07:51:01Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Conditional probing: measuring usable information beyond a baseline [103.93673427217527]
ある表現が、その表現がベースライン表現を探索するよりも高い精度を生成する場合、その表現がプロパティを符号化することを示唆する。
本稿では,ベースライン内の情報に対して明示的に条件を定め,条件付き探索を提案する。
ケーススタディでは、非文脈単語埋め込みを条件付けした後、部分音声のような特性がネットワークの深い層でアクセス可能であることが判明した。
論文 参考訳(メタデータ) (2021-09-19T21:56:58Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Picking BERT's Brain: Probing for Linguistic Dependencies in
Contextualized Embeddings Using Representational Similarity Analysis [13.016284599828232]
動詞の埋め込みが動詞の主語をエンコードする程度を調べ、代名詞の埋め込みが代名詞の先行語をエンコードし、全文表現が文の見出し語をエンコードする。
いずれの場合も、BERTの文脈的埋め込みは言語依存を反映しており、BERTは言語依存の少ない制御を符号化するよりも、これらの依存をより大きく符号化していることを示す。
論文 参考訳(メタデータ) (2020-11-24T13:19:06Z) - Using Holographically Compressed Embeddings in Question Answering [0.0]
本研究では,事前学習した埋め込みのホログラフィック圧縮を用いてトークン,そのパート・オブ・音声,名前付きエンティティタイプを表現する。
この実装は、修正された質問応答の繰り返しディープラーニングネットワークにおいて、意味的関係が保存され、高い性能が得られることを示す。
論文 参考訳(メタデータ) (2020-07-14T18:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。