論文の概要: Enhancing Multilingual Embeddings via Multi-Way Parallel Text Alignment
- arxiv url: http://arxiv.org/abs/2602.21543v1
- Date: Wed, 25 Feb 2026 03:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.692902
- Title: Enhancing Multilingual Embeddings via Multi-Way Parallel Text Alignment
- Title(参考訳): マルチウェイ並列テキストアライメントによる多言語埋め込みの強化
- Authors: Barah Fazili, Koustava Goswami,
- Abstract要約: マルチウェイ並列コーパスによる言語間アライメントのための標準トレーニングモデルにより,NLUタスクの表現を大幅に改善できることを示す。
我々は,6つのターゲット言語からなるプールに対して,市販のNMTモデルから英文を翻訳したマルチウェイ並列データセットを構築した。
- 参考スコア(独自算出の注目度): 6.718469075779034
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multilingual pretraining typically lacks explicit alignment signals, leading to suboptimal cross-lingual alignment in the representation space. In this work, we show that training standard pretrained models for cross-lingual alignment with a multi-way parallel corpus in a diverse pool of languages can substantially improve multilingual and cross-lingual representations for NLU tasks. We construct a multi-way parallel dataset using translations of English text from an off-the-shelf NMT model for a pool of six target languages and achieve strong cross-lingual alignment through contrastive learning. This leads to substantial performance gains across both seen and unseen languages for multiple tasks from the MTEB benchmark evaluated for XLM-Roberta and multilingual BERT base models. Using a multi-way parallel corpus for contrastive training yields substantial gains on bitext mining (21.3%), semantic similarity (5.3%), and classification (28.4%) compared to English-centric (En-X) bilingually parallel data, where X is sampled from a pool of multiple target languages. Furthermore, finetuning mE5 model on a small dataset with multi-way parallelism significantly improves bitext mining compared to one without, underscoring the importance of multi-way cross-lingual supervision even for models already pretrained for high-quality sentence embeddings.
- Abstract(参考訳): 多言語事前訓練は、通常明示的なアライメント信号が欠如し、表現空間における最適部分言語間アライメントにつながる。
本研究では,NLUタスクの多言語および多言語表現を大幅に改善できる多言語並列コーパスを用いた言語間アライメントのためのトレーニングモデルについて述べる。
そこで本研究では,6言語を対象とするNMTモデルから英文を翻訳したマルチウェイ並列データセットを構築し,コントラスト学習による強い言語間アライメントを実現する。
これは、XLM-Robertaと多言語BERTベースモデルで評価されたMTEBベンチマークから、複数のタスクに対して、見ない言語と見えない言語の両方で、大幅なパフォーマンス向上をもたらす。
コントラストトレーニングにマルチウェイ並列コーパスを使用すると、bitextマイニング(21.3%)、セマンティック類似性(5.3%)、分類(28.4%)が英語中心の(En-X)バイリンガル並列データと比較され、Xは複数のターゲット言語のプールからサンプリングされる。
さらに、マルチウェイ並列性を持つ小さなデータセット上でのmE5モデルを微調整することで、高品質な文埋め込みに事前訓練済みのモデルであっても、マルチウェイの言語間監督の重要性を強調し、ビットクストマイニングを大幅に改善する。
関連論文リスト
- From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora [80.0547333327488]
TED Talks に基づく大規模かつ高品質なマルチウェイ並列コーパス TED2025 を導入する。
このデータセットは113の言語にまたがっており、最大50の言語が並列に並び、広範囲にわたるマルチリンガルカバレッジを保証する。
実験により、マルチウェイ並列データでトレーニングされたモデルは、不整合多言語データでトレーニングされたモデルよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-05-20T07:43:45Z) - Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? [42.37657013017192]
単言語コーパスの代わりに並列で命令チューニングを行うことで、最大9.9%の言語間命令に従うことができることを示す。
また,多言語チャットシナリオにおけるヒューマンベースとGPT-4に基づく評価の整合性を理解するために,人間のアノテーション研究を行う。
論文 参考訳(メタデータ) (2024-02-21T11:07:07Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。