論文の概要: XL-Suite: Cross-Lingual Synthetic Training and Evaluation Data for Open-Ended Generation
- arxiv url: http://arxiv.org/abs/2503.22973v2
- Date: Sat, 20 Sep 2025 14:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:44.914919
- Title: XL-Suite: Cross-Lingual Synthetic Training and Evaluation Data for Open-Ended Generation
- Title(参考訳): XL-Suite:オープンエンドジェネレーションのための言語間総合学習と評価データ
- Authors: Vivek Iyer, Pinzhen Chen, Ricardo Rei, Alexandra Birch,
- Abstract要約: XL-Instructは高品質な合成データを生成する新しい技術である。
XL-AlpacaEvalは、大規模言語モデルの言語間生成能力を評価するための新しいベンチマークである。
- 参考スコア(独自算出の注目度): 68.03327518891749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual open-ended generation - responding in a language different from that of the query - is an important yet understudied problem. This work proposes XL-Instruct, a novel technique for generating high-quality synthetic data, and introduces XL-AlpacaEval, a new benchmark for evaluating cross-lingual generation capabilities of large language models (LLMs). Our experiments show that fine-tuning with just 8K instructions generated using XL-Instruct significantly improves model performance, increasing the win rate against GPT-4o-Mini from 7.4% to 21.5% and improving on several fine-grained quality metrics. Moreover, base LLMs fine-tuned on XL-Instruct exhibit strong zero-shot improvements to question answering in the same language, as shown on our machine-translated m-AlpacaEval. These consistent gains highlight the promising role of XL-Instruct in the post-training of multilingual LLMs. Finally, we publicly release XL-Suite, a collection of training and evaluation data to facilitate research in cross-lingual open-ended generation.
- Abstract(参考訳): 言語間のオープンエンド生成 – クエリとは異なる言語で応答する – は重要な問題だが,未検討の課題だ。
本稿では,高品質な合成データを生成する新しい手法であるXL-Instructを提案し,大規模言語モデル(LLM)の言語間相互生成能力を評価するための新しいベンチマークであるXL-AlpacaEvalを紹介する。
実験の結果,XL-Instructを用いて生成した8K命令のみによる微調整によりモデル性能が大幅に向上し,GPT-4o-Miniに対する勝利率が7.4%から21.5%に向上し,いくつかの細かい品質指標が向上した。
さらに,XL-Instructを微調整したベースLLMは,機械翻訳したm-AlpacaEvalに示すように,同じ言語での質問応答に対して強いゼロショット改善を示す。
これらの一貫した成果は、多言語LLMのポストトレーニングにおけるXL-インストラクションの有望な役割を強調している。
最後に,XL-Suiteを公開して,言語間のオープンエンド生成の研究を促進するためのトレーニングと評価データの収集を行う。
関連論文リスト
- Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - XNLIeu: a dataset for cross-lingual NLI in Basque [14.788692648660797]
本稿では、XNLIを拡張して、トランスファーラーニングのアプローチを大いに活用できる低リソース言語であるBasqueを含める。
新しいデータセットはXNLIeuと呼ばれ、最初は英語のXNLIコーパスをバスクに機械翻訳し、続いて手動で編集後のステップで開発された。
論文 参考訳(メタデータ) (2024-04-10T13:19:56Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning [99.42850643947439]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文 参考訳(メタデータ) (2022-10-26T17:16:52Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - Larger-Scale Transformers for Multilingual Masked Language Modeling [16.592883204398518]
XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。
また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。
論文 参考訳(メタデータ) (2021-05-02T23:15:02Z) - XLST: Cross-lingual Self-training to Learn Multilingual Representation
for Low Resource Speech Recognition [45.121579065982544]
クロスランガル自己学習(XLST)と呼ばれる弱教師付き多言語表現学習フレームワークを提案する。
XLSTは、多言語非注釈データの表現学習を改善するために、高リソース言語からの少量の注釈付きデータを利用することができる。
XLSTの有効性を評価するため,CommonVoice corpusの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-03-15T08:33:50Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Transferring Monolingual Model to Low-Resource Language: The Case of
Tigrinya [0.0]
本稿では,強力なソース言語モデルを採用するためのコスト効率のよいトランスファー学習手法を提案する。
与えられたTigrinya感情分析データセットの10k例だけで、英語のXLNetは78.88%のF1スコアを達成した。
CLSデータセット上の微調整(英: Fine-tuning)XLNetモデルでは,mBERTと比較して有望な結果が得られる。
論文 参考訳(メタデータ) (2020-06-13T18:53:22Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。