論文の概要: MIDB: Multilingual Instruction Data Booster for Enhancing Multilingual Instruction Synthesis
- arxiv url: http://arxiv.org/abs/2505.17671v1
- Date: Fri, 23 May 2025 09:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.96825
- Title: MIDB: Multilingual Instruction Data Booster for Enhancing Multilingual Instruction Synthesis
- Title(参考訳): MIDB:多言語インストラクションデータブースタによる多言語インストラクション合成
- Authors: Yilun Liu, Chunguang Zhao, Xinhua Yang, Hongyong Zeng, Shimin Tao, Weibin Meng, Minggui He, Chang Su, Yan Yu, Hongxia Ma, Li Zhang, Daimeng Wei, Hao Yang,
- Abstract要約: 我々は,多言語合成データの品質問題に対処するために,多言語命令データブースターMIDBを提案する。
MIDBは16言語にわたる36.8kの改訂例で、人間の言語専門家によって訓練されている。
自動評価と人的評価は、MIDBが16言語での命令データ品質を着実に改善していることを示している。
- 参考スコア(独自算出の注目度): 11.308841351812035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite doubts on data quality, instruction synthesis has been widely applied into instruction tuning (IT) of LLMs as an economic and rapid alternative. Recent endeavors focus on improving data quality for synthesized instruction pairs in English and have facilitated IT of English-centric LLMs. However, data quality issues in multilingual synthesized instruction pairs are even more severe, since the common synthesizing practice is to translate English synthesized data into other languages using machine translation (MT). Besides the known content errors in these English synthesized data, multilingual synthesized instruction data are further exposed to defects introduced by MT and face insufficient localization of the target languages. In this paper, we propose MIDB, a Multilingual Instruction Data Booster to automatically address the quality issues in multilingual synthesized data. MIDB is trained on around 36.8k revision examples across 16 languages by human linguistic experts, thereby can boost the low-quality data by addressing content errors and MT defects, and improving localization in these synthesized data. Both automatic and human evaluation indicate that not only MIDB steadily improved instruction data quality in 16 languages, but also the instruction-following and cultural-understanding abilities of multilingual LLMs fine-tuned on MIDB-boosted data were significantly enhanced.
- Abstract(参考訳): データ品質に疑問があるにもかかわらず、命令合成はLLMの命令チューニング(IT)に経済的かつ迅速な代替手段として広く応用されている。
近年の取り組みは、英語で合成された命令ペアのデータ品質の向上に重点を置いており、英語中心のLLMのITを促進している。
しかし、機械翻訳(MT)を用いて英語合成データを他の言語に翻訳することが一般的な合成法であるため、多言語合成命令対におけるデータ品質の問題はさらに深刻である。
これらの英語合成データにおける既知の内容誤差に加えて、多言語合成命令データはさらにMTが導入した欠陥に晒され、対象言語のローカライゼーションが不十分である。
本稿では,多言語合成データの品質問題を自動的に解決するMIDBを提案する。
MIDBは16の言語の専門家によって約36.8kの改訂例に基づいて訓練されており、コンテンツエラーやMT欠陥に対処し、これらの合成データのローカライゼーションを改善することで、低品質のデータを向上させることができる。
自動評価と人的評価の両方で,MIDBは16言語での命令データ品質を着実に改善しただけでなく,MIDB ブーストデータに微調整された多言語 LLM の指示追従能力と文化的理解能力も大幅に向上した。
関連論文リスト
- Scaling Low-Resource MT via Synthetic Data Generation with LLMs [13.10398947215569]
本研究は7つの多様な対象言語に焦点を当てる。
我々は、英語のEuroparlから文書レベルの合成コーパスを構築し、それを147の追加言語対にピボットすることで拡張する。
本研究は, (i) 効果的なトレーニング体制の同定, (ii) データのHPLTデータセットとの比較, (iii) 英語中心MTを超えてその実用性をテストすることによる実践的応用について検討する。
論文 参考訳(メタデータ) (2025-05-20T14:31:54Z) - Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - Evaluating Large Language Model Capability in Vietnamese Fact-Checking Data Generation [1.0173628293062005]
大規模言語モデル(LLM)は、様々な複雑な言語タスクに適用されている。
本稿では,ベトナムのファクトチェックタスクにおけるLPMを用いた自動データ生成について検討する。
簡単なプロンプト技術を用いて自動データ構築プロセスを開発し、生成したデータの品質を改善するためにいくつかの手法を探索する。
論文 参考訳(メタデータ) (2024-11-08T15:35:43Z) - LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation [43.26446958873554]
大規模言語モデル(LLM)は,バイリンガルの監督が限られているにもかかわらず,多言語翻訳において有望な結果を示している。
大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。
LandeRMT は LLM を textbfMachine textbfTranslation に選択的に微調整するフレームワークである。
論文 参考訳(メタデータ) (2024-09-29T02:39:42Z) - Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation [25.850573463743352]
大規模多言語事前訓練言語モデル(mPLMs)は、言語横断タスクにおいて優れた性能を発揮する。
しかし、mPLM内では異なる言語にまたがって大きな性能格差が存在する。
我々は ALSACE を導入し,優れた言語から学んだ知識を活用して,mPLM の低性能言語を誘導する。
論文 参考訳(メタデータ) (2024-04-12T14:19:16Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Improving Zero-shot Multilingual Neural Machine Translation for
Low-Resource Languages [1.0965065178451106]
タグ付き多言語NMTモデルを提案し,これら2つの問題に対処する自己学習アルゴリズムを改良する。
IWSLTの実験結果によると、調整されたタグ付き多言語NMTは、多言語NMTに対して9.41と7.85のBLEUスコアを得る。
論文 参考訳(メタデータ) (2021-10-02T02:50:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。