論文の概要: XL-Instruct: Synthetic Data for Cross-Lingual Open-Ended Generation
- arxiv url: http://arxiv.org/abs/2503.22973v1
- Date: Sat, 29 Mar 2025 04:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:39:52.973963
- Title: XL-Instruct: Synthetic Data for Cross-Lingual Open-Ended Generation
- Title(参考訳): XL-Instruct: 言語間オープンエンディング生成のための合成データ
- Authors: Vivek Iyer, Ricardo Rei, Pinzhen Chen, Alexandra Birch,
- Abstract要約: 言語間のオープンエンド生成は重要な問題であるが、未検討の課題である。
本稿では,XL-AlpacaEvalについて紹介する。
高品質な合成データ生成手法であるXL-Instructを提案する。
- 参考スコア(独自算出の注目度): 60.266245438147166
- License:
- Abstract: Cross-lingual open-ended generation -- i.e. generating responses in a desired language different from that of the user's query -- is an important yet understudied problem. We introduce XL-AlpacaEval, a new benchmark for evaluating cross-lingual generation capabilities in Large Language Models (LLMs), and propose XL-Instruct, a high-quality synthetic data generation method. Fine-tuning with just 8K XL-Instruct-generated instructions significantly improves model performance, increasing the win rate against GPT-4o-Mini from 7.4% to 21.5%, and improving on several fine-grained quality metrics. Additionally, models fine-tuned on XL-Instruct exhibit strong zero-shot transfer to both English-only and multilingual generation tasks. Given its consistent gains across the board, we strongly recommend incorporating XL-Instruct in the post-training pipeline of future multilingual LLMs. To facilitate further research, we will publicly and freely release the XL-Instruct and XL-AlpacaEval datasets, which constitute two of the few cross-lingual resources currently available in the literature.
- Abstract(参考訳): 言語間のオープンエンド生成 -- すなわち、ユーザのクエリとは異なる所望の言語で応答を生成する -- は、重要で未検討の課題である。
本稿では,Large Language Models (LLMs)における言語間言語生成能力を評価するための新しいベンチマークであるXL-AlpacaEvalを紹介し,高品質な合成データ生成手法であるXL-Instructを提案する。
8K XL-Instruct- generated命令のみによる微調整はモデル性能を大幅に向上させ、GPT-4o-Miniに対する勝利率を7.4%から21.5%に引き上げ、いくつかの細かい品質指標を改善した。
さらに、XL-Instructで微調整されたモデルは、英語のみおよび多言語生成タスクに強いゼロショット転送を示す。
XL-Instruct を将来の多言語 LLM の訓練後パイプラインに組み込むことを強く推奨する。
XL-InstructとXL-AlpacaEvalデータセットは、現在文献で利用可能な数少ない言語間リソースの2つです。
関連論文リスト
- XNLIeu: a dataset for cross-lingual NLI in Basque [14.788692648660797]
本稿では、XNLIを拡張して、トランスファーラーニングのアプローチを大いに活用できる低リソース言語であるBasqueを含める。
新しいデータセットはXNLIeuと呼ばれ、最初は英語のXNLIコーパスをバスクに機械翻訳し、続いて手動で編集後のステップで開発された。
論文 参考訳(メタデータ) (2024-04-10T13:19:56Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning [99.42850643947439]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文 参考訳(メタデータ) (2022-10-26T17:16:52Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - Larger-Scale Transformers for Multilingual Masked Language Modeling [16.592883204398518]
XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。
また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。
論文 参考訳(メタデータ) (2021-05-02T23:15:02Z) - XLST: Cross-lingual Self-training to Learn Multilingual Representation
for Low Resource Speech Recognition [45.121579065982544]
クロスランガル自己学習(XLST)と呼ばれる弱教師付き多言語表現学習フレームワークを提案する。
XLSTは、多言語非注釈データの表現学習を改善するために、高リソース言語からの少量の注釈付きデータを利用することができる。
XLSTの有効性を評価するため,CommonVoice corpusの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-03-15T08:33:50Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Transferring Monolingual Model to Low-Resource Language: The Case of
Tigrinya [0.0]
本稿では,強力なソース言語モデルを採用するためのコスト効率のよいトランスファー学習手法を提案する。
与えられたTigrinya感情分析データセットの10k例だけで、英語のXLNetは78.88%のF1スコアを達成した。
CLSデータセット上の微調整(英: Fine-tuning)XLNetモデルでは,mBERTと比較して有望な結果が得られる。
論文 参考訳(メタデータ) (2020-06-13T18:53:22Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。