論文の概要: Probing Multilingual BERT for Genetic and Typological Signals
- arxiv url: http://arxiv.org/abs/2011.02070v1
- Date: Wed, 4 Nov 2020 00:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:05:16.754467
- Title: Probing Multilingual BERT for Genetic and Typological Signals
- Title(参考訳): 多言語BERTによる遺伝的・タイポロジー信号の探索
- Authors: Taraka Rama and Lisa Beinborn and Steffen Eger
- Abstract要約: 我々は多言語BERT(mBERT)の層を探索し,100言語にわたる系統的および地理的言語信号について検討した。
我々は,言語木を推定・評価するために,言語距離を用い,四重項木距離の点から基準系木に近いことが判明した。
- 参考スコア(独自算出の注目度): 28.360662552057324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We probe the layers in multilingual BERT (mBERT) for phylogenetic and
geographic language signals across 100 languages and compute language distances
based on the mBERT representations. We 1) employ the language distances to
infer and evaluate language trees, finding that they are close to the reference
family tree in terms of quartet tree distance, 2) perform distance matrix
regression analysis, finding that the language distances can be best explained
by phylogenetic and worst by structural factors and 3) present a novel measure
for measuring diachronic meaning stability (based on cross-lingual
representation variability) which correlates significantly with published
ranked lists based on linguistic approaches. Our results contribute to the
nascent field of typological interpretability of cross-lingual text
representations.
- Abstract(参考訳): 我々は、100言語にわたる系統的・地理的言語信号とmBERT表現に基づく言語距離を計算するために、多言語BERT(mBERT)の層を探索する。
私たち
1) 言語距離を用いて, 言語木を推定し, 評価し, 四分木距離の観点から基準系木に近いことを発見した。
2) 距離行列回帰分析を行い, 言語距離を系統学的に説明し, 構造的要因で最悪であることを見出した。
3) ダイアクロニックな意味の安定性(言語間表現の変動性に基づく)を測定するための新しい尺度を提示する。
本研究は,言語間表現のタイプ論的解釈可能性の出現に寄与する。
関連論文リスト
- The Shape of Word Embeddings: Quantifying Non-Isometry With Topological Data Analysis [10.242373477945376]
我々は、トポロジカルデータ解析から永続的ホモロジーを用いて、ラベルなし埋め込みの形状から言語ペア間の距離を測定する。
これらの違いが無作為な訓練誤りなのか、それとも言語に関する実情報なのかを識別するために、計算された距離行列を用いて81のインド・ヨーロッパ語に言語系統木を構築する。
論文 参考訳(メタデータ) (2024-03-30T23:51:25Z) - Exploring language relations through syntactic distances and geographic proximity [0.4369550829556578]
ユニバーサル依存データセットから抽出した音声の一連の部分(POS)を用いて言語間距離を探索する。
特定の形態的類型によって説明される例外を除いて、よく知られた言語族やグループに対応する定型クラスタが見つかる。
論文 参考訳(メタデータ) (2024-03-27T10:36:17Z) - Patterns of Persistence and Diffusibility across the World's Languages [3.7055269158186874]
コレキシフィケーション(英: Colexification)は、複数の意味を伝えるために単一の語彙形式を用いる類似性の一種である。
我々は,言語間の類似性の言語的原因について,比較と音韻学で明らかにした。
我々は,1,966言語を対象とした意味,系譜,音韻,地理データを組み込んだ大規模グラフを構築した。
論文 参考訳(メタデータ) (2024-01-03T12:05:38Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - Finding Universal Grammatical Relations in Multilingual BERT [47.74015366712623]
mBERT表現のサブスペースは、英語以外の言語で構文木の距離を回復することを示す。
我々は,mBERTが構文依存ラベルの表現を学習する証拠を提供する教師なし解析手法を提案する。
論文 参考訳(メタデータ) (2020-05-09T20:46:02Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。