論文の概要: A multilabel approach to morphosyntactic probing
- arxiv url: http://arxiv.org/abs/2104.08464v1
- Date: Sat, 17 Apr 2021 06:24:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 04:50:27.406815
- Title: A multilabel approach to morphosyntactic probing
- Title(参考訳): モルフォシンタクティック探索へのマルチラベルアプローチ
- Authors: Naomi Tachikawa Shapiro, Amandalynne Paullada, Shane
Steinert-Threlkeld
- Abstract要約: マルチリンガルBERTは多くの形態合成特徴を簡便かつ同時に抽出できることを示した。
ゼロショット転送設定で、6つの「ホールドアウト」言語のプローブを評価します。
- 参考スコア(独自算出の注目度): 3.0013352260516744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a multilabel probing task to assess the morphosyntactic
representations of word embeddings from multilingual language models. We
demonstrate this task with multilingual BERT (Devlin et al., 2018), training
probes for seven typologically diverse languages of varying morphological
complexity: Afrikaans, Croatian, Finnish, Hebrew, Korean, Spanish, and Turkish.
Through this simple but robust paradigm, we show that multilingual BERT renders
many morphosyntactic features easily and simultaneously extractable (e.g.,
gender, grammatical case, pronominal type). We further evaluate the probes on
six "held-out" languages in a zero-shot transfer setting: Arabic, Chinese,
Marathi, Slovenian, Tagalog, and Yoruba. This style of probing has the added
benefit of revealing the linguistic properties that language models recognize
as being shared across languages. For instance, the probes performed well on
recognizing nouns in the held-out languages, suggesting that multilingual BERT
has a conception of noun-hood that transcends individual languages; yet, the
same was not true of adjectives.
- Abstract(参考訳): 多言語言語モデルから単語埋め込みのモルフォシンタクティック表現を評価するための多言語探索タスクを提案する。
この課題を多言語BERT (Devlin et al., 2018) を用いて, アフリカーンス, クロアチア語, フィンランド語, ヘブライ語, 韓国語, スペイン語, トルコ語という, 様々な形態的複雑性を持つ7つの言語に対する訓練調査を行った。
この単純かつ堅牢なパラダイムを通じて、多言語BERTは、多くの形態素合成的特徴を容易に同時に抽出可能である(例えば、性、文法的ケース、プロノミナルタイプ)。
我々はさらに,アラビア語,中国語,マラーティー語,スロベニア語,タガログ語,ヨルバ語という,ゼロショットトランスファー設定における6つの"ヘルドアウト"言語に関するプローブを評価した。
このスタイルの探索は、言語モデルが言語間で共有されていると認識する言語特性を明らかにするという利点を付加している。
例えば、調査は保留言語における名詞の認識においてうまく行っており、多言語BERTが個々の言語を横断する名詞の概念を持っていることを示唆している。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - The Less the Merrier? Investigating Language Representation in
Multilingual Models [8.632506864465501]
多言語モデルにおける言語表現について検討する。
我々は、コミュニティ中心のモデルが、低リソース言語で同じ家系の言語を区別する上で、より良い性能を発揮することを実験から観察した。
論文 参考訳(メタデータ) (2023-10-20T02:26:34Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Multilingual BERT has an accent: Evaluating English influences on
fluency in multilingual models [23.62852626011989]
我々は,高次情報源言語における文法構造が低次情報源言語に肥大化したことを示す。
このバイアスは、多言語モデルの流布度とモノリンガルのスペイン語とギリシア語のモデルの流布度を比較する新しい方法によって示される。
論文 参考訳(メタデータ) (2022-10-11T17:06:38Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - To What Degree Can Language Borders Be Blurred In BERT-based
Multilingual Spoken Language Understanding? [7.245261469258502]
BERTをベースとした多言語言語理解(SLU)モデルは, 遠隔言語群でもかなりうまく機能するが, 理想的な多言語言語性能にはまだギャップがあることを示す。
本稿では,多言語SLUのための言語共有および言語固有表現を学習するための,BERTに基づく新しい逆モデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-10T09:59:24Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。