論文の概要: SMOL: Professionally translated parallel data for 115 under-represented languages
- arxiv url: http://arxiv.org/abs/2502.12301v2
- Date: Fri, 31 Oct 2025 10:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 15:46:16.86539
- Title: SMOL: Professionally translated parallel data for 115 under-represented languages
- Title(参考訳): SMOL:115の非表現言語のためのプロフェッショナルに翻訳された並列データ
- Authors: Isaac Caswell, Elizabeth Nielsen, Jiaming Luo, Colin Cherry, Geza Kovacs, Hadar Shemtov, Partha Talukdar, Dinesh Tewari, Baba Mamadi Diane, Djibrila Diane, Solo Farabado Cissé, Koulako Moussa Doumbouya, Edoardo Ferrante, Alessandro Guasoni, Christopher Homan, Mamadou K. Keita, Sudhamoy DebBarma, Ali Kuzhuget, David Anugraha, Muhammad Ravi Shulthan Habibi, Genta Indra Winata, Anthony Munthali, Sina Ahmadi, Andrei Chemyshev, Mingfei Lau, Jonathan Eng,
- Abstract要約: 私たちはSMOLをオープンソースにしました。SMOLは低リソース言語のための機械翻訳をアンロックするためのトレーニングデータスイートです。
SMOLは124のアンダーリソース言語(125の言語ペア)に翻訳されている。
SMOLは2つのサブデータセットから構成されており、それぞれがサイズに応じて最大インパクトのために慎重に選択されている: SMOLSENT、幅広いユニークなトークンカバレッジのために選択された文のセット、および、広範囲のトピックカバレッジに焦点を当てたドキュメントレベルのリソースであるSMOLDOC。
- 参考スコア(独自算出の注目度): 47.9386408192047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We open-source SMOL (Set of Maximal Overall Leverage), a suite of training data to unlock machine translation for low-resource languages. SMOL has been translated into 124 (and growing) under-resourced languages (125 language pairs), including many for which there exist no previous public resources, for a total of 6.1M translated tokens. SMOL comprises two sub-datasets, each carefully chosen for maximum impact given its size: SMOLSENT, a set of sentences chosen for broad unique token coverage, and SMOLDOC, a document-level resource focusing on a broad topic coverage. They join the already released GATITOS for a trifecta of paragraph, sentence, and token-level content. We demonstrate that using SMOL to prompt or fine-tune Large Language Models yields robust chrF improvements. In addition to translation, we provide factuality ratings and rationales for all documents in SMOLDOC, yielding the first factuality datasets for most of these languages.
- Abstract(参考訳): 私たちはSMOL(Set of Maximal overall Leverage)をオープンソースとして公開しています。
SMOLは124のアンダーリソース言語(125の言語ペア)に翻訳され、その中には以前の公開リソースが存在しないものも多く含まれており、合計6.1Mのトークンが翻訳されている。
SMOLは2つのサブデータセットから構成されており、それぞれがサイズに応じて最大インパクトのために慎重に選択されている: SMOLSENT、幅広いユニークなトークンカバレッジのために選択された文のセット、および、広範囲のトピックカバレッジに焦点を当てたドキュメントレベルのリソースであるSMOLDOC。
彼らはすでにリリース済みのGATITOSに、段落、文、トークンレベルのコンテンツの三部作として参加している。
SMOLを用いて、大規模言語モデルをプロンプトまたは微調整することで、堅牢なchrFの改善がもたらされることを示す。
翻訳に加えて、SMOLDOCのすべての文書に対して事実性評価と合理的性を提供し、これらの言語で最初の事実性データセットを提供する。
関連論文リスト
- Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - Multilingual Language Model Pretraining using Machine-translated Data [33.373858866989536]
高品質なWebデータセットであるFineWeb-Eduを9言語に翻訳する。
TransWebLLMは、クローズドデータを用いて訓練された最先端の多言語モデルに適合し、性能が向上することを示す。
論文 参考訳(メタデータ) (2025-02-18T19:27:53Z) - LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages [36.52198103816494]
LLM(Large Language Models)は、オープンソースの言語タスクにおいて顕著な翻訳能力を示す。
しかし、低リソース言語におけるそれらの性能は、事前トレーニング中に不十分な多言語データによって妨げられている。
我々はLLaMAシリーズモデルで多言語連続事前学習を行い、100言語以上にわたる翻訳支援を可能にした。
論文 参考訳(メタデータ) (2024-07-08T14:18:28Z) - mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。
163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。
さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - A New Massive Multilingual Dataset for High-Performance Language Technologies [14.375854322321997]
HPLT言語リソースは、モノリンガルとバイリンガルのコーパスを含む、新しい大規模多言語データセットである。
我々のモノリンガルコレクションは、低から中程度の言語に焦点を合わせ、75言語をカバーし、合計5.6兆のワードトークンがドキュメントレベルで重複している。
私たちの英語中心のパラレルコーパスは、単言語対から派生したもので、18の言語対と、約140億の英語トークンを持つ96万の整列文対をカバーしています。
論文 参考訳(メタデータ) (2024-03-20T22:14:39Z) - Aya Model: An Instruction Finetuned Open-Access Multilingual Language
Model [33.87586041774359]
Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。
99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。
我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
論文 参考訳(メタデータ) (2024-02-12T17:34:13Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44
Languages [7.8288425529553916]
XL-SumはBBCから100万の専門的注釈付き記事-要約ペアからなる包括的・多種多様なデータセットである。
データセットは、低から高リソースまでの44の言語をカバーする。
XL-Sumは非常に抽象的で簡潔で高品質で、人間や本質的な評価によって示される。
論文 参考訳(メタデータ) (2021-06-25T18:00:24Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - A Bayesian Multilingual Document Model for Zero-shot Topic Identification and Discovery [1.9215779751499527]
モデルは多言語シナリオへの BaySMM [Kesiraju et al 2020] の拡張である。
学習した不確実性を線形分類器で伝達し、ゼロショットの言語間話題識別に役立てる。
我々は、現在のデータセットを深く掘り下げることで、ゼロショット設定での言語間トピックの識別を再考する。
論文 参考訳(メタデータ) (2020-07-02T19:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。