論文の概要: Let's Play Mono-Poly: BERT Can Reveal Words' Polysemy Level and
Partitionability into Senses
- arxiv url: http://arxiv.org/abs/2104.14694v1
- Date: Thu, 29 Apr 2021 23:15:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:46:02.261190
- Title: Let's Play Mono-Poly: BERT Can Reveal Words' Polysemy Level and
Partitionability into Senses
- Title(参考訳): Mono-Polyをプレイしよう:BERTは単語のポリセミーレベルと分割性をセンセーションに活用できる
- Authors: Aina Gar\'i Soler and Marianna Apidianaki
- Abstract要約: 学習済み言語モデル(LM)は言語構造に関する豊富な情報をエンコードするが、語彙多項式に関する知識は未だに不明である。
異なる言語向けに訓練されたLMでこの知識を分析するための新しい実験的なセットアップを提案します。
BERTが導いた表現は、単語の多項式レベルとその分割性が感覚に反映されることを実証する。
- 参考スコア(独自算出の注目度): 4.915907527975786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (LMs) encode rich information about linguistic
structure but their knowledge about lexical polysemy remains unclear. We
propose a novel experimental setup for analysing this knowledge in LMs
specifically trained for different languages (English, French, Spanish and
Greek) and in multilingual BERT. We perform our analysis on datasets carefully
designed to reflect different sense distributions, and control for parameters
that are highly correlated with polysemy such as frequency and grammatical
category. We demonstrate that BERT-derived representations reflect words'
polysemy level and their partitionability into senses. Polysemy-related
information is more clearly present in English BERT embeddings, but models in
other languages also manage to establish relevant distinctions between words at
different polysemy levels. Our results contribute to a better understanding of
the knowledge encoded in contextualised representations and open up new avenues
for multilingual lexical semantics research.
- Abstract(参考訳): 事前学習言語モデル(LM)は言語構造に関する豊富な情報を符号化しているが、語彙多節語に関する知識は未だ不明である。
本稿では,異なる言語(英語,フランス語,スペイン語,ギリシア語)と多言語BERTで訓練されたLMにおいて,この知識を解析するための新たな実験装置を提案する。
我々は、異なる感覚分布を反映するように設計されたデータセットを慎重に分析し、周波数や文法カテゴリーなどの多義性と高い相関を持つパラメータの制御を行う。
BERTに基づく表現は、単語のポリセミーレベルとその分割可能性を知覚に反映することを示した。
ポリセミー関連情報は、英語のbert埋め込みにおいてより明確に存在するが、他の言語におけるモデルは、異なるポリセミーレベルにおける単語間の関連した区別を確立することもできる。
本研究では,文脈化表現にエンコードされた知識の理解を深め,多言語語彙意味論研究の新たな道を開く。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Evaluating Contextualized Representations of (Spanish) Ambiguous Words: A New Lexical Resource and Empirical Analysis [2.2530496464901106]
スペイン語の単言語モデルと多言語BERTモデルを用いて、文脈におけるスペイン語のあいまいな名詞の意味表現を評価する。
様々な BERT ベースの LM の文脈的意味表現は、人間の判断に多少の違いがあるが、ヒトのベンチマークには及ばない。
論文 参考訳(メタデータ) (2024-06-20T18:58:11Z) - Exploring Multilingual Concepts of Human Value in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages? [34.38469832305664]
本稿では,AIの安全性の重要性から,人間の価値観に関する概念(すなわち,価値の概念)に焦点を当てる。
我々はまず,LLMにおける価値概念の存在を多言語形式で実証的に確認した。
これらの概念の言語間特性に関するさらなる分析は、言語資源の相違から生じる3つの特徴を明らかにしている。
論文 参考訳(メタデータ) (2024-02-28T07:18:39Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z) - Probing Pretrained Language Models for Lexical Semantics [76.73599166020307]
類型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行った。
我々の結果は、普遍的に維持されるパターンとベストプラクティスを示しているが、言語やタスクにまたがる顕著なバリエーションを示している。
論文 参考訳(メタデータ) (2020-10-12T14:24:01Z) - Finding Universal Grammatical Relations in Multilingual BERT [47.74015366712623]
mBERT表現のサブスペースは、英語以外の言語で構文木の距離を回復することを示す。
我々は,mBERTが構文依存ラベルの表現を学習する証拠を提供する教師なし解析手法を提案する。
論文 参考訳(メタデータ) (2020-05-09T20:46:02Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。