論文の概要: VAST: The Valence-Assessing Semantics Test for Contextualizing Language
Models
- arxiv url: http://arxiv.org/abs/2203.07504v1
- Date: Mon, 14 Mar 2022 21:29:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 12:18:11.490881
- Title: VAST: The Valence-Assessing Semantics Test for Contextualizing Language
Models
- Title(参考訳): VAST: 言語モデルを文脈化するための意味論テスト
- Authors: Robert Wolfe, Aylin Caliskan
- Abstract要約: VAST(Valence-Assessing Semantics Test)は,文脈適応型単語埋め込みのための本質的な評価課題である。
VASTは他の7つのLMにとって有用であり、7つの言語で使用できることを示す。
また,単語群間の単語埋め込み関係の相違を比較した結果,セマンティクスの分離後,よりステレオタイプ・コングルエントバイアスが認められた。
- 参考スコア(独自算出の注目度): 3.4157048274143316
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: VAST, the Valence-Assessing Semantics Test, is a novel intrinsic evaluation
task for contextualized word embeddings (CWEs). VAST uses valence, the
association of a word with pleasantness, to measure the correspondence of
word-level LM semantics with widely used human judgments, and examines the
effects of contextualization, tokenization, and LM-specific geometry. Because
prior research has found that CWEs from GPT-2 perform poorly on other intrinsic
evaluations, we select GPT-2 as our primary subject, and include results
showing that VAST is useful for 7 other LMs, and can be used in 7 languages.
GPT-2 results show that the semantics of a word incorporate the semantics of
context in layers closer to model output, such that VAST scores diverge between
our contextual settings, ranging from Pearson's rho of .55 to .77 in layer 11.
We also show that multiply tokenized words are not semantically encoded until
layer 8, where they achieve Pearson's rho of .46, indicating the presence of an
encoding process for multiply tokenized words which differs from that of singly
tokenized words, for which rho is highest in layer 0. We find that a few
neurons with values having greater magnitude than the rest mask word-level
semantics in GPT-2's top layer, but that word-level semantics can be recovered
by nullifying non-semantic principal components: Pearson's rho in the top layer
improves from .32 to .76. After isolating semantics, we show the utility of
VAST for understanding LM semantics via improvements over related work on four
word similarity tasks, with a score of .50 on SimLex-999, better than the
previous best of .45 for GPT-2. Finally, we show that 8 of 10 WEAT bias tests,
which compare differences in word embedding associations between groups of
words, exhibit more stereotype-congruent biases after isolating semantics,
indicating that non-semantic structures in LMs also mask biases.
- Abstract(参考訳): vast、valence-assessing semantics testは文脈化単語埋め込み(cwes)のための新しい本質的評価タスクである。
VASTは、単語と快適さの関連付けであるvalenceを用いて、広く使われている人間の判断と単語レベルのLM意味論の対応を計測し、文脈化、トークン化、およびLM固有の幾何学の影響を調べる。
従来の研究では, GPT-2 の CWE が他の本質的評価に悪影響を及ぼすことが判明しているため, GPT-2 を主課題とし, VAST が他の 7 つのLM に有用であり,7 言語で使用できることを示す結果を含む。
GPT-2の結果から、単語の意味論は、モデル出力に近い層にコンテキストの意味論を組み込んでおり、VASTスコアは、Pearsonのrho .55 から .77 の層 11 まで、私たちのコンテキスト設定の間にばらつきがあることを示している。
また,マルチプリトークン化語は.46のピアソンのrhoを達成するレイヤ8まで意味的にエンコードされないことを示し,rhoが層0で最高となるシングルトークン化語と異なるマルチプリトークン化語のエンコードプロセスが存在することを示す。
GPT-2の上位層における単語レベルのセマンティクスよりも大きな値を持つ数個のニューロンが発見されているが、単語レベルのセマンティクスは非意味的な主成分を無効にすることで回復できる。
セマンティクスの分離後,4つの単語類似性タスクに関する関連作業の改善を通じて,LMセマンティクスを理解するためのVASTの有用性を示し,SimLex-999のスコアは.50であり,GPT-2の.45よりも優れていた。
最後に,単語群間の単語埋め込み関係の差異を比較するweatバイアステスト10のうち8つが,意味論の分離後のステレオタイプ一致バイアスを示し,lmsにおける非意味構造もバイアスを隠蔽していることを示す。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Breaking Down Word Semantics from Pre-trained Language Models through
Layer-wise Dimension Selection [0.0]
本稿では,レイヤ間の中間出力にバイナリマスクを適用することにより,BERTから意味感覚を分離することを目的とする。
2つの異なる文の目的語が同じ意味を持つかどうかを判定するために、二分分類により、アンタングル埋め込みを評価する。
論文 参考訳(メタデータ) (2023-10-08T11:07:19Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - The Better Your Syntax, the Better Your Semantics? Probing Pretrained
Language Models for the English Comparative Correlative [7.03497683558609]
Construction Grammar (CxG) は、文法と意味論の関連性を強調する認知言語学のパラダイムである。
我々は、最もよく研究されている構成のうちの1つ、英語比較相関(CC)を分類し、理解する能力について調査する。
以上の結果から,PLMは3つともCCの構造を認識することができるが,その意味は用いていないことが明らかとなった。
論文 参考訳(メタデータ) (2022-10-24T13:01:24Z) - Contrastive Visual Semantic Pretraining Magnifies the Semantics of
Natural Language Representations [3.4157048274143316]
GPT-2とCLIPによる文脈化英語表現に対するコントラッシブ・ビジュアル・セマンティック・プレトレーニングの効果を比較した。
コントラスト的な視覚的セマンティックプレトレーニングは、GPT-2の文脈的単語埋め込みで見られる異方性を著しく軽減することがわかった。
以上の結果から,高い異方性は文脈化の必然的な結果ではないことが示唆された。
論文 参考訳(メタデータ) (2022-03-14T21:42:13Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - SST-BERT at SemEval-2020 Task 1: Semantic Shift Tracing by Clustering in
BERT-based Embedding Spaces [63.17308641484404]
本稿では,異なる単語の意味の表現として,各単語の異なる事象のクラスタを特定することを提案する。
得られたクラスタの分解は、自然に4つのターゲット言語において、各ターゲットワードごとの意味的シフトのレベルを定量化することができる。
当社のアプローチは,提供されたすべてのSemEvalベースラインを抜いて,個別(言語毎)と全体の両方で良好に動作します。
論文 参考訳(メタデータ) (2020-10-02T08:38:40Z) - BLiMP: The Benchmark of Linguistic Minimal Pairs for English [23.2834990762859]
言語最小ペアのベンチマーク(英語: Benchmark of Linguistic Minimal Pairs、略称BLiMP)は、言語モデル(LM)が英語の主要な文法現象について何を知っているかを評価するための課題セットである。
BLiMPは67のサブデータセットで構成され、それぞれが1000組の最小ペアを含み、構文、形態学、意味論において特定のコントラストを分離する。
現状のモデルは形態的コントラストを確実に識別するが、定量化器と負極性項目の分布に関する意味的制約に苦慮している。
論文 参考訳(メタデータ) (2019-12-02T05:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。