論文の概要: Beyond Static Models and Test Sets: Benchmarking the Potential of
Pre-trained Models Across Tasks and Languages
- arxiv url: http://arxiv.org/abs/2205.06356v1
- Date: Thu, 12 May 2022 20:42:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 00:07:32.824983
- Title: Beyond Static Models and Test Sets: Benchmarking the Potential of
Pre-trained Models Across Tasks and Languages
- Title(参考訳): 静的モデルとテストセットを超えて:タスクと言語間の事前訓練モデルの可能性のベンチマーク
- Authors: Kabir Ahuja, Sandipan Dandapat, Sunayana Sitaram, Monojit Choudhury
- Abstract要約: 本稿は,多言語評価における既存の実践を信頼できないものにし,言語環境全体にわたるMMLMの性能の全体像を提示していないことを論じる。
我々は,NLPタスクのパフォーマンス予測における最近の研究が,多言語NLPにおけるベンチマークの修正における潜在的な解決策となることを示唆する。
実験データと4つの異なる多言語データセットのケーススタディを比較し、これらの手法が翻訳に基づくアプローチとよく一致している性能の信頼性を推定できることを示した。
- 参考スコア(独自算出の注目度): 15.373725507698591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although recent Massively Multilingual Language Models (MMLMs) like mBERT and
XLMR support around 100 languages, most existing multilingual NLP benchmarks
provide evaluation data in only a handful of these languages with little
linguistic diversity. We argue that this makes the existing practices in
multilingual evaluation unreliable and does not provide a full picture of the
performance of MMLMs across the linguistic landscape. We propose that the
recent work done in Performance Prediction for NLP tasks can serve as a
potential solution in fixing benchmarking in Multilingual NLP by utilizing
features related to data and language typology to estimate the performance of
an MMLM on different languages. We compare performance prediction with
translating test data with a case study on four different multilingual
datasets, and observe that these methods can provide reliable estimates of the
performance that are often on-par with the translation based approaches,
without the need for any additional translation as well as evaluation costs.
- Abstract(参考訳): mBERTやXLMRのような最近のMMLM(Massively Multilingual Language Model)は約100言語をサポートしているが、既存の多言語NLPベンチマークでは、言語多様性の少ない少数の言語で評価データを提供している。
本稿は,多言語評価における既存の実践を信頼できないものにし,言語環境におけるMMLMの性能の全体像を提示しない。
NLPタスクの性能予測における最近の研究は,多言語NLPにおけるベンチマークの修正における潜在的な解決策として,データと言語型に関する特徴を活用して,異なる言語上でのMMLMの性能を推定することを提案する。
性能予測と4つの異なる多言語データセットのケーススタディを比較し、これらの手法は、追加の翻訳や評価コストを必要とせずに、翻訳ベースアプローチとほぼ同等のパフォーマンスを信頼性の高い推定を行うことができることを検証した。
関連論文リスト
- The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - How do languages influence each other? Studying cross-lingual data
sharing during LLM fine-tuning [16.8212280804151]
多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。
言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。
MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
論文 参考訳(メタデータ) (2023-05-22T17:47:41Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z) - Predicting the Performance of Multilingual NLP Models [16.250791929966685]
本稿では,特定のタスクがテストセットを持つ言語上で,既存のモデルの性能スコアを利用する言語間でのモデル評価のための代替ソリューションを提案する。
我々はこれらの性能スコアの予測器を訓練し、この予測器を用いて異なる評価設定でモデルの性能を予測する。
提案手法は,既存の言語群に対する評価のギャップを埋めるのに有効であるが,未知の言語に一般化したい場合,さらなる改善が必要である可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-17T17:36:53Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。