論文の概要: The Secret is in the Spectra: Predicting Cross-lingual Task Performance
with Spectral Similarity Measures
- arxiv url: http://arxiv.org/abs/2001.11136v2
- Date: Mon, 12 Oct 2020 15:13:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 12:12:27.130083
- Title: The Secret is in the Spectra: Predicting Cross-lingual Task Performance
with Spectral Similarity Measures
- Title(参考訳): 秘密はスペクトルにある:スペクトル類似度尺度を用いた言語間タスクパフォーマンスの予測
- Authors: Haim Dubossarsky, Ivan Vuli\'c, Roi Reichart, Anna Korhonen
- Abstract要約: 本稿では,モノリンガル埋め込み空間の類似性とタスク性能の相関性に着目した大規模研究を行う。
2つの埋め込み空間間のいくつかの同型測度を導入し、それぞれのスペクトルの関連統計に基づく。
このようなスペクトル同型尺度から得られた言語類似度スコアは、異なる言語間タスクで観測された性能と強く関連していることを実証的に示す。
- 参考スコア(独自算出の注目度): 83.53361353172261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performance in cross-lingual NLP tasks is impacted by the (dis)similarity of
languages at hand: e.g., previous work has suggested there is a connection
between the expected success of bilingual lexicon induction (BLI) and the
assumption of (approximate) isomorphism between monolingual embedding spaces.
In this work we present a large-scale study focused on the correlations between
monolingual embedding space similarity and task performance, covering thousands
of language pairs and four different tasks: BLI, parsing, POS tagging and MT.
We hypothesize that statistics of the spectrum of each monolingual embedding
space indicate how well they can be aligned. We then introduce several
isomorphism measures between two embedding spaces, based on the relevant
statistics of their individual spectra. We empirically show that 1) language
similarity scores derived from such spectral isomorphism measures are strongly
associated with performance observed in different cross-lingual tasks, and 2)
our spectral-based measures consistently outperform previous standard
isomorphism measures, while being computationally more tractable and easier to
interpret. Finally, our measures capture complementary information to
typologically driven language distance measures, and the combination of
measures from the two families yields even higher task performance
correlations.
- Abstract(参考訳): 例えば、以前の研究では、二言語レキシコン誘導(bli)の期待された成功と単言語埋め込み空間間の(ほぼ)同型の仮定の間に関係があることが示唆されている。
本研究では,単言語組込み空間の類似性とタスク性能の相関に着目した大規模研究を行い,数千の言語ペアと4つのタスク(bli,パース,posタグ,およびmt)をカバーする。
次に、それぞれのスペクトルの関連統計に基づいて、2つの埋め込み空間間のいくつかの同型測度を導入する。
私たちはそれを経験的に示します
1)そのようなスペクトル同型尺度から得られた言語類似度スコアは、異なる言語間タスクで観察された性能と強く関連しており、
2) 従来の標準同型測度を一貫して上回っているが, 計算性は高く, 解釈も容易である。
最後に,タイポロジー的に駆動される言語距離尺度に対する補完的情報を収集し,これら2家系の尺度の組み合わせによりタスクパフォーマンス相関がさらに高まることを示す。
関連論文リスト
- Probing the Emergence of Cross-lingual Alignment during LLM Training [10.053333786023089]
多言語大言語モデル(LLM)は、ゼロショットの多言語間転送性能を著しく向上させる。
本研究では,LLMの事前学習において,このような言語間アライメントがどのように出現するかを検討する。
ニューロンの重なり合いと下流性能の相関関係を観察する。
論文 参考訳(メタデータ) (2024-06-19T05:31:59Z) - Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - On Learning Universal Representations Across Languages [37.555675157198145]
文レベルの表現を学習するための既存のアプローチを拡張し、言語間理解と生成の有効性を示す。
具体的には,複数の言語に分散した並列文の普遍表現を学習するための階層型コントラスト学習(HiCTL)手法を提案する。
我々は、XTREMEと機械翻訳という2つの難解な言語間タスクについて評価を行う。
論文 参考訳(メタデータ) (2020-07-31T10:58:39Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。