論文の概要: Exploring Alignment in Shared Cross-lingual Spaces
- arxiv url: http://arxiv.org/abs/2405.14535v1
- Date: Thu, 23 May 2024 13:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 15:05:17.840324
- Title: Exploring Alignment in Shared Cross-lingual Spaces
- Title(参考訳): 共通言語空間におけるアライメントの探索
- Authors: Basel Mousi, Nadir Durrani, Fahim Dalvi, Majd Hawasly, Ahmed Abdelali,
- Abstract要約: 多言語モデル内の潜在概念を明らかにするためにクラスタリングを採用しています。
本分析は,これらの概念のテキストアライメントとテキストオーバーラップを様々な言語で定量化することに焦点を当てている。
本研究は、3つの多言語モデル(textttmT5, texttmBERT, textttXLM-R)と3つの下流タスク(Machine Translation, Named Entity Recognition, Sentiment Analysis)を含む。
- 参考スコア(独自算出の注目度): 15.98134426166435
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite their remarkable ability to capture linguistic nuances across diverse languages, questions persist regarding the degree of alignment between languages in multilingual embeddings. Drawing inspiration from research on high-dimensional representations in neural language models, we employ clustering to uncover latent concepts within multilingual models. Our analysis focuses on quantifying the \textit{alignment} and \textit{overlap} of these concepts across various languages within the latent space. To this end, we introduce two metrics \CA{} and \CO{} aimed at quantifying these aspects, enabling a deeper exploration of multilingual embeddings. Our study encompasses three multilingual models (\texttt{mT5}, \texttt{mBERT}, and \texttt{XLM-R}) and three downstream tasks (Machine Translation, Named Entity Recognition, and Sentiment Analysis). Key findings from our analysis include: i) deeper layers in the network demonstrate increased cross-lingual \textit{alignment} due to the presence of language-agnostic concepts, ii) fine-tuning of the models enhances \textit{alignment} within the latent space, and iii) such task-specific calibration helps in explaining the emergence of zero-shot capabilities in the models.\footnote{The code is available at \url{https://github.com/baselmousi/multilingual-latent-concepts}}
- Abstract(参考訳): 多様な言語にまたがる言語ニュアンスを捕捉する優れた能力にもかかわらず、多言語埋め込みにおける言語間のアライメントの程度について疑問が残る。
ニューラルネットワークモデルにおける高次元表現の研究からインスピレーションを得て、クラスタリングを用いて多言語モデル内の潜在概念を明らかにする。
我々の分析は、潜在空間内の様々な言語にまたがるこれらの概念の \textit{alignment} と \textit{overlap} の定量化に焦点を当てている。
この目的のために、これらの側面を定量化することを目的とした2つのメトリクス \CA{} と \CO{} を導入し、多言語埋め込みのより深い探索を可能にした。
本研究は,3つの多言語モデル (\texttt{mT5}, \texttt{mBERT}, \texttt{XLM-R}) と3つの下流タスク (Machine Translation, Named Entity Recognition, Sentiment Analysis) を含む。
私たちの分析の主な発見は以下のとおりである。
一 ネットワークの深い層は、言語に依存しない概念の存在により、言語横断的な「textit{alignment}」の増加を示す。
二 モデルの微調整は、潜伏空間内の「textit{alignment}」を増強し、
三 このようなタスク固有のキャリブレーションは、モデルにおけるゼロショット能力の出現を説明するのに役立ちます。
\footnote{The code are available at \url{https://github.com/baselmousi/multilingual-latent-concepts}}
関連論文リスト
- Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - Advancing Multilingual Pre-training: TRIP Triangular Document-level
Pre-training for Multilingual Language Models [107.83158521848372]
我々は,従来のモノリンガルおよびバイリンガルの目的を,グラフト法と呼ばれる新しい手法で三言語的目的に加速する分野において,最初のテキストbfTriangular Document-level textbfPre-training(textbfTRIP)を提案する。
TRIPは、3つの多言語文書レベルの機械翻訳ベンチマークと1つの言語間抽象的な要約ベンチマークで、最大3.11d-BLEU点と8.9ROUGE-L点の一貫性のある改善を含む、強力なSOTAスコアを達成している。
論文 参考訳(メタデータ) (2022-12-15T12:14:25Z) - Cross-lingual Word Embeddings in Hyperbolic Space [31.888489552069146]
言語間単語の埋め込みは、複数の言語にわたる自然言語処理アプリケーションに適用することができる。
本稿では,双曲空間のポアンカー球モデルに適応する,単純かつ効果的な言語間言語Word2Vecモデルを提案する。
論文 参考訳(メタデータ) (2022-05-04T06:15:37Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Finding Universal Grammatical Relations in Multilingual BERT [47.74015366712623]
mBERT表現のサブスペースは、英語以外の言語で構文木の距離を回復することを示す。
我々は,mBERTが構文依存ラベルの表現を学習する証拠を提供する教師なし解析手法を提案する。
論文 参考訳(メタデータ) (2020-05-09T20:46:02Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。