論文の概要: EnAnchored-X2X: English-Anchored Optimization for Many-to-Many Translation
- arxiv url: http://arxiv.org/abs/2509.19770v1
- Date: Wed, 24 Sep 2025 05:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.694652
- Title: EnAnchored-X2X: English-Anchored Optimization for Many-to-Many Translation
- Title(参考訳): EnAnchored-X2X:man-to-Many翻訳のための英語-Anchored最適化
- Authors: Sen Yang, Yu Bao, Yu Lu, Jiajun Chen, Shujian Huang, Shanbo Cheng,
- Abstract要約: 大規模言語モデル(LLM)は、英語中心の言語ペアに対して強力な機械翻訳能力を示しているが、直接非英語(x2x)翻訳では性能が劣っている。
この研究は、モデルの確立した英語対x(en2x)能力を活用する合成データ生成フレームワークを通じて、この制限に対処する。
- 参考スコア(独自算出の注目度): 49.3025597941589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated strong machine translation capabilities for English-centric language pairs but underperform in direct non-English (x2x) translation. This work addresses this limitation through a synthetic data generation framework that leverages models' established English-to-x (en2x) capabilities. By extending English parallel corpora into omnidirectional datasets and developing an English-referenced quality evaluation proxy, we enable effective collection of high-quality x2x training data. Combined with preference-based optimization, our method achieves significant improvement across 72 x2x directions for widely used LLMs, while generalizing to enhance en2x performance. The results demonstrate that strategic exploitation of English-centric strengths can bootstrap comprehensive multilingual translation capabilities in LLMs. We release codes, datasets, and model checkpoints at https://github.com/NJUNLP/EAX
- Abstract(参考訳): 大規模言語モデル(LLM)は、英語中心の言語ペアに対して強力な機械翻訳能力を示しているが、直接非英語(x2x)翻訳では性能が劣っている。
この研究は、モデルの確立した英語対x(en2x)能力を活用する合成データ生成フレームワークを通じて、この制限に対処する。
英文並列コーパスを全方向データセットに拡張し、英文参照品質評価プロキシを開発することにより、高品質なx2xトレーニングデータの効果的な収集を可能にする。
提案手法は,好みに基づく最適化と組み合わせて,72×2x方向の広いLLMに対して,En2x性能の向上を図りながら,大幅な改善を実現している。
その結果、LLMにおいて英語中心の強みを戦略的に活用することで、包括的多言語翻訳能力をブートストラップできることが示された。
私たちはhttps://github.com/NJUNLP/EAXでコード、データセット、モデルチェックポイントをリリースします。
関連論文リスト
- Utilizing Multilingual Encoders to Improve Large Language Models for Low-Resource Languages [4.702593857707973]
LLM(Large Language Models)は英語では優れているが、その性能は低リソース言語(LRL)では英語中心の訓練によって著しく低下する。
本稿では,全ての中間層を融合させ,LLMに渡される言語情報を豊かにする新しいアーキテクチャを提案する。
我々はLRLの性能向上を強く観察し、シンハラ分類の精度を71.66%から75.86%に改善し、タミル語、ベンガル語、マラヤラム語などのインド語言語で明らかに改善した。
論文 参考訳(メタデータ) (2025-08-12T17:17:13Z) - Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning [99.42850643947439]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文 参考訳(メタデータ) (2022-10-26T17:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。