論文の概要: WMT24++: Expanding the Language Coverage of WMT24 to 55 Languages & Dialects
- arxiv url: http://arxiv.org/abs/2502.12404v1
- Date: Tue, 18 Feb 2025 00:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:03:13.069491
- Title: WMT24++: Expanding the Language Coverage of WMT24 to 55 Languages & Dialects
- Title(参考訳): WMT24++: WMT24の言語カバーを55言語と方言に拡張
- Authors: Daniel Deutsch, Eleftheria Briakou, Isaac Caswell, Mara Finkelstein, Rebecca Galor, Juraj Juraska, Geza Kovacs, Alison Lui, Ricardo Rei, Jason Riesa, Shruti Rijhwani, Parker Riley, Elizabeth Salesky, Firas Trabelsi, Stephanie Winkler, Biao Zhang, Markus Freitag,
- Abstract要約: WMT24データセットを55言語に拡張し、新しい人書き参照と46の新しい言語と方言に対する後編集を収集する。
データセットには、文学、ニュース、社会、スピーチの4つの領域が含まれている。
収集したデータセット上で,各種MTプロバイダとLLMを自動メトリクスを用いてベンチマークし,LLMが全55言語で最高のパフォーマンスのMTシステムであることが確認された。
- 参考スコア(独自算出の注目度): 41.35634985044016
- License:
- Abstract: As large language models (LLM) become more and more capable in languages other than English, it is important to collect benchmark datasets in order to evaluate their multilingual performance, including on tasks like machine translation (MT). In this work, we extend the WMT24 dataset to cover 55 languages by collecting new human-written references and post-edits for 46 new languages and dialects in addition to post-edits of the references in 8 out of 9 languages in the original WMT24 dataset. The dataset covers four domains: literary, news, social, and speech. We benchmark a variety of MT providers and LLMs on the collected dataset using automatic metrics and find that LLMs are the best-performing MT systems in all 55 languages. These results should be confirmed using a human-based evaluation, which we leave for future work.
- Abstract(参考訳): 英語以外の言語では,大規模言語モデル(LLM)がますます有能になるにつれて,機械翻訳(MT)などのタスクを含む多言語のパフォーマンスを評価するために,ベンチマークデータセットの収集が重要である。
本研究では,WMT24データセットを55言語に拡張し,新しい人文参照と46の新しい言語および方言に対する後編集を収集すると共に,元のWMT24データセットの9言語中8言語への参照を後編集する。
データセットには、文学、ニュース、社会、スピーチの4つの領域が含まれている。
収集したデータセット上で,各種MTプロバイダとLLMを自動メトリクスを用いてベンチマークし,LLMが全55言語で最高のパフォーマンスのMTシステムであることが確認された。
これらの結果は人間による評価で確認されるべきであり、今後の研究に向けて留意すべきである。
関連論文リスト
- Tagengo: A Multilingual Chat Dataset [3.8073142980733]
74言語で70k以上のプロンプト応答対の高品質なデータセットを提示する。
このデータセットを使って、最先端のオープンソースLLMをトレーニングし、マルチ言語でチャットします。
論文 参考訳(メタデータ) (2024-05-21T09:06:36Z) - TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in LLMs through Translation-Assisted Chain-of-Thought Processes [9.254047358707014]
本稿では,Alpaca-52K,Dolly-15K,Vicuna Benchmarkを132言語に翻訳する多言語インストラクション・チューニングデータセット(MITS)を紹介する。
次に,emphTaCo: Translation-Assisted Cross-Lingualityという新たな手法を提案する。
提案手法は,Vicuna Benchmark データセットの低リソース言語に対して 82% のスコアで GPT-4 を圧縮し,命令チューニングと比較して性能を2倍にすることを示す。
論文 参考訳(メタデータ) (2023-11-17T06:55:32Z) - ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z) - MADLAD-400: A Multilingual And Document-Level Large Audited Dataset [66.12330208082442]
我々はCommonCrawlをベースとした,手動で監査された汎用ドメイン3TトークンモノリンガルデータセットMADLAD-400を紹介する。
我々は,MADLAD-400の自己監査による限界と,データセット作成プロセスにおけるデータ監査の役割について論じる。
論文 参考訳(メタデータ) (2023-09-09T02:34:01Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。