論文の概要: Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes
- arxiv url: http://arxiv.org/abs/2109.04921v1
- Date: Fri, 10 Sep 2021 15:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 16:32:16.117370
- Title: Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes
- Title(参考訳): 直交構造プローブを用いた言語間コンテキスト埋め込みの検討
- Authors: Tomasz Limisiewicz and David Mare\v{c}ek
- Abstract要約: オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
- 参考スコア(独自算出の注目度): 0.2538209532048867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art contextual embeddings are obtained from large language
models available only for a few languages. For others, we need to learn
representations using a multilingual model. There is an ongoing debate on
whether multilingual embeddings can be aligned in a space shared across many
languages. The novel Orthogonal Structural Probe (Limisiewicz and Mare\v{c}ek,
2021) allows us to answer this question for specific linguistic features and
learn a projection based only on mono-lingual annotated datasets. We evaluate
syntactic (UD) and lexical (WordNet) structural information encoded inmBERT's
contextual representations for nine diverse languages. We observe that for
languages closely related to English, no transformation is needed. The
evaluated information is encoded in a shared cross-lingual embedding space. For
other languages, it is beneficial to apply orthogonal transformation learned
separately for each language. We successfully apply our findings to zero-shot
and few-shot cross-lingual parsing.
- Abstract(参考訳): 最先端のコンテキスト埋め込みは、少数の言語でしか利用できない大きな言語モデルから得られる。
他の人にとっては、多言語モデルを使って表現を学ぶ必要がある。
多言語組込みが多くの言語で共有される空間に整列できるかどうかについては議論が続いている。
新しい直交構造プローブ(limisiewicz and mare\v{c}ek, 2021)は、特定の言語的特徴についてこの質問に答え、単言語アノテートデータセットのみに基づいて投影を学ぶことができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
英語と密接に関連する言語では、変換は不要である。
評価された情報を共有言語間埋め込み空間に符号化する。
他の言語では、各言語で個別に学習される直交変換を適用することが有益である。
ゼロショットと少数ショットの言語交叉解析にこの知見を応用できた。
関連論文リスト
- The Geometry of Multilingual Language Model Representations [25.880639246639323]
我々は,言語知覚情報を各言語で符号化しながら,多言語モデルが共有多言語表現空間をどのように維持するかを評価する。
部分空間は、中層全体で比較的安定な言語感受性軸に沿って異なり、これらの軸はトークン語彙などの情報を符号化する。
言語感受性および言語ニュートラル軸に投影された表現を可視化し,言語族と音声クラスタを識別し,スパイラル,トーラス,トークン位置情報を表す曲線を可視化する。
論文 参考訳(メタデータ) (2022-05-22T23:58:24Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Establishing Interlingua in Multilingual Language Models [0.0]
異なる言語が大きな多言語言語モデルにおいて共有空間に収束することを示す。
我々は28の多様な言語に分析を拡張し、言語間の空間が言語の言語的関連性に類似した特定の構造を示すことを発見した。
論文 参考訳(メタデータ) (2021-09-02T20:53:14Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Language Embeddings for Typology and Cross-lingual Transfer Learning [11.647285195114256]
我々はデノナイズドオートエンコーダを用いて29言語に対して高密度な埋め込みを生成する。
言語構造学の世界アトラス(World Atlas of Language Structures)を用いて埋め込みを評価する。
論文 参考訳(メタデータ) (2021-06-03T19:00:02Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Finding Universal Grammatical Relations in Multilingual BERT [47.74015366712623]
mBERT表現のサブスペースは、英語以外の言語で構文木の距離を回復することを示す。
我々は,mBERTが構文依存ラベルの表現を学習する証拠を提供する教師なし解析手法を提案する。
論文 参考訳(メタデータ) (2020-05-09T20:46:02Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。