Fugu-MT 論文翻訳(概要): Enhancing Multilingual Embeddings via Multi-Way Parallel Text Alignment

論文の概要: Enhancing Multilingual Embeddings via Multi-Way Parallel Text Alignment

arxiv url: http://arxiv.org/abs/2602.21543v1
Date: Wed, 25 Feb 2026 03:58:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.692902
Title: Enhancing Multilingual Embeddings via Multi-Way Parallel Text Alignment
Title（参考訳）: マルチウェイ並列テキストアライメントによる多言語埋め込みの強化
Authors: Barah Fazili, Koustava Goswami,
Abstract要約: マルチウェイ並列コーパスによる言語間アライメントのための標準トレーニングモデルにより,NLUタスクの表現を大幅に改善できることを示す。我々は,6つのターゲット言語からなるプールに対して,市販のNMTモデルから英文を翻訳したマルチウェイ並列データセットを構築した。
参考スコア（独自算出の注目度）: 6.718469075779034
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multilingual pretraining typically lacks explicit alignment signals, leading to suboptimal cross-lingual alignment in the representation space. In this work, we show that training standard pretrained models for cross-lingual alignment with a multi-way parallel corpus in a diverse pool of languages can substantially improve multilingual and cross-lingual representations for NLU tasks. We construct a multi-way parallel dataset using translations of English text from an off-the-shelf NMT model for a pool of six target languages and achieve strong cross-lingual alignment through contrastive learning. This leads to substantial performance gains across both seen and unseen languages for multiple tasks from the MTEB benchmark evaluated for XLM-Roberta and multilingual BERT base models. Using a multi-way parallel corpus for contrastive training yields substantial gains on bitext mining (21.3%), semantic similarity (5.3%), and classification (28.4%) compared to English-centric (En-X) bilingually parallel data, where X is sampled from a pool of multiple target languages. Furthermore, finetuning mE5 model on a small dataset with multi-way parallelism significantly improves bitext mining compared to one without, underscoring the importance of multi-way cross-lingual supervision even for models already pretrained for high-quality sentence embeddings.
Abstract（参考訳）: 多言語事前訓練は、通常明示的なアライメント信号が欠如し、表現空間における最適部分言語間アライメントにつながる。本研究では,NLUタスクの多言語および多言語表現を大幅に改善できる多言語並列コーパスを用いた言語間アライメントのためのトレーニングモデルについて述べる。そこで本研究では,6言語を対象とするNMTモデルから英文を翻訳したマルチウェイ並列データセットを構築し,コントラスト学習による強い言語間アライメントを実現する。これは、XLM-Robertaと多言語BERTベースモデルで評価されたMTEBベンチマークから、複数のタスクに対して、見ない言語と見えない言語の両方で、大幅なパフォーマンス向上をもたらす。コントラストトレーニングにマルチウェイ並列コーパスを使用すると、bitextマイニング(21.3%)、セマンティック類似性(5.3%)、分類(28.4%)が英語中心の(En-X)バイリンガル並列データと比較され、Xは複数のターゲット言語のプールからサンプリングされる。さらに、マルチウェイ並列性を持つ小さなデータセット上でのmE5モデルを微調整することで、高品質な文埋め込みに事前訓練済みのモデルであっても、マルチウェイの言語間監督の重要性を強調し、ビットクストマイニングを大幅に改善する。

関連論文リスト

Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文参考訳（メタデータ） (2025-07-18T03:19:43Z)
From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora [80.0547333327488]
TED Talks に基づく大規模かつ高品質なマルチウェイ並列コーパス TED2025 を導入する。このデータセットは113の言語にまたがっており、最大50の言語が並列に並び、広範囲にわたるマルチリンガルカバレッジを保証する。実験により、マルチウェイ並列データでトレーニングされたモデルは、不整合多言語データでトレーニングされたモデルよりも一貫して優れていた。
論文参考訳（メタデータ） (2025-05-20T07:43:45Z)
Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? [42.37657013017192]
単言語コーパスの代わりに並列で命令チューニングを行うことで、最大9.9%の言語間命令に従うことができることを示す。また,多言語チャットシナリオにおけるヒューマンベースとGPT-4に基づく評価の整合性を理解するために,人間のアノテーション研究を行う。
論文参考訳（メタデータ） (2024-02-21T11:07:07Z)
RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。 6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2023-05-13T14:41:05Z)
VECO 2.0: Cross-lingual Language Model Pre-training with Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文参考訳（メタデータ） (2023-04-17T12:23:41Z)
Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。 In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文参考訳（メタデータ） (2022-10-24T11:41:20Z)
Language Agnostic Multilingual Information Retrieval with Contrastive Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。我々のモデルは少数のパラレル文でもうまく機能する。
論文参考訳（メタデータ） (2022-10-12T23:53:50Z)
Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文参考訳（メタデータ） (2021-09-28T11:22:38Z)
Improving Low-resource Reading Comprehension via Cross-lingual Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文参考訳（メタデータ） (2021-07-11T09:35:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。