論文の概要: Probing Context Localization of Polysemous Words in Pre-trained Language Model Sub-Layers
- arxiv url: http://arxiv.org/abs/2409.14097v1
- Date: Sat, 21 Sep 2024 10:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 03:33:25.726883
- Title: Probing Context Localization of Polysemous Words in Pre-trained Language Model Sub-Layers
- Title(参考訳): 事前学習型言語モデルサブ階層における多文単語の文脈局所化の提案
- Authors: Soniya Vijayakumar, Josef van Genabith, Simon Ostermann,
- Abstract要約: プレトレーニング言語モデル(PLM)の細粒度サブレイヤ表現に符号化された文脈化の程度について検討する。
文脈化へのサブレイヤの主な貢献を識別するために、まず、最小限の異なる文対における多文単語のサブレイヤ表現を抽出する。
また,これらのサブレイヤ表現に符号化された文脈化情報の強みを実証的にローカライズする。
- 参考スコア(独自算出の注目度): 12.610445666406898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of high performing Large Language Models, researchers have widely acknowledged that contextual word representations are one of the key drivers in achieving top performances in downstream tasks. In this work, we investigate the degree of contextualization encoded in the fine-grained sub-layer representations of a Pre-trained Language Model (PLM) by empirical experiments using linear probes. Unlike previous work, we are particularly interested in identifying the strength of contextualization across PLM sub-layer representations (i.e. Self-Attention, Feed-Forward Activation and Output sub-layers). To identify the main contributions of sub-layers to contextualisation, we first extract the sub-layer representations of polysemous words in minimally different sentence pairs, and compare how these representations change through the forward pass of the PLM network. Second, by probing on a sense identification classification task, we try to empirically localize the strength of contextualization information encoded in these sub-layer representations. With these probing experiments, we also try to gain a better understanding of the influence of context length and context richness on the degree of contextualization. Our main conclusion is cautionary: BERT demonstrates a high degree of contextualization in the top sub-layers if the word in question is in a specific position in the sentence with a shorter context window, but this does not systematically generalize across different word positions and context sizes.
- Abstract(参考訳): ハイパフォーマンスな大規模言語モデルの時代、研究者は、文脈的単語表現が下流タスクで最高のパフォーマンスを達成する上での鍵となる要因の一つであると広く認識している。
本研究では, 線形プローブを用いた実験実験により, プレトレーニング言語モデル(PLM)の細粒度部分層表現に符号化された文脈化の程度について検討する。
これまでの研究とは異なり、我々はPLMサブレイヤ表現(セルフアテンション、フィードフォワードアクティベーション、アウトプットサブレイヤ)におけるコンテキスト化の強みを特定することに特に関心がある。
文脈化へのサブレイヤの主な貢献を識別するために,まず,最小限の文対における多文単語のサブレイヤ表現を抽出し,これらの表現がPLMネットワークの前方通過を通してどのように変化するかを比較する。
第二に、感覚識別分類タスクを探索することにより、これらのサブレイヤ表現に符号化された文脈化情報の強みを実証的にローカライズする。
これらの探索実験により、文脈長と文脈豊かさが文脈化の度合いに与える影響をよりよく理解することを試みる。
BERTは、質問中の単語が短い文脈ウィンドウを持つ文の特定の位置にある場合、上位サブレイヤで高い文脈化を示すが、これは異なる単語の位置と文脈サイズを体系的に一般化しない。
関連論文リスト
- Where does In-context Translation Happen in Large Language Models [18.379840329713407]
大規模言語モデルがテキスト学習者から翻訳モデルへ移行する地域を特徴付ける。
我々は、翻訳タスクが入力表現に符号化され、文脈への注意がもはや不要な「タスク認識」ポイントの証拠を実証する。
論文 参考訳(メタデータ) (2024-03-07T14:12:41Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Analyzing Text Representations by Measuring Task Alignment [2.198430261120653]
階層的クラスタリングに基づくタスクアライメントスコアを構築し,異なるレベルの粒度でアライメントを測定する。
テキスト分類実験は、タスクアライメントが与えられた表現の分類性能を説明することができることを示すことによって、我々の仮説を検証する。
論文 参考訳(メタデータ) (2023-05-31T11:20:48Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - An Empirical Study on Leveraging Position Embeddings for Target-oriented
Opinion Words Extraction [13.765146062545048]
ToWE(Target-oriented opinion words extract)は、ターゲット指向の感情分析の新しいサブタスクである。
本稿では,BiLSTMに基づくモデルを用いて,位置情報を単語表現に効果的にエンコードできることを示す。
また,構文情報を組み込んだグラフ畳み込みネットワーク(GCN)を用いて,単語表現の強化を行う。
論文 参考訳(メタデータ) (2021-09-02T22:49:45Z) - Effect of Post-processing on Contextualized Word Representations [20.856802441794162]
静的埋め込みの事後処理は、語彙レベルとシーケンスレベルのタスクの両方のパフォーマンスを改善するために示されてきた。
事前学習した言語モデルの異なる層から得られた文脈的埋め込みに対する後処理の有用性を疑問視する。
論文 参考訳(メタデータ) (2021-04-15T13:40:42Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - Quantifying the Contextualization of Word Representations with Semantic
Class Probing [8.401007663676214]
事前訓練された言語モデルは、多くのNLPタスクにおいて、新しい最先端技術を実現している。
単語のセマンティッククラスが文脈化された埋め込みから推測できる範囲を研究することにより、文脈化の量、すなわち、単語が文脈内でどのように解釈されるかの定量化を行う。
論文 参考訳(メタデータ) (2020-04-25T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。