論文の概要: MASSIVE: A 1M-Example Multilingual Natural Language Understanding
Dataset with 51 Typologically-Diverse Languages
- arxiv url: http://arxiv.org/abs/2204.08582v1
- Date: Mon, 18 Apr 2022 22:40:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 13:13:45.309960
- Title: MASSIVE: A 1M-Example Multilingual Natural Language Understanding
Dataset with 51 Typologically-Diverse Languages
- Title(参考訳): MASSIVE:51のTypological-diverse Languageを用いた100万例の多言語自然言語理解データセット
- Authors: Jack FitzGerald, Christopher Hench, Charith Peris, Scott Mackie, Kay
Rottmann, Ana Sanchez, Aaron Nash, Liam Urbach, Vishesh Kakarala, Richa
Singh, Swetha Ranganath, Laurie Crist, Misha Britan, Wouter Leeuwis, Gokhan
Tur, Prem Natarajan
- Abstract要約: MASSIVEには、51の言語、18のドメイン、60のインテント、55のスロットにまたがる100Mのリアルで並列なラベル付き仮想アシスタント音声が含まれている。
MASSIVEは、プロの翻訳者に対して、英語のみのSLURPデータセットを29の属から50の類型的に多様な言語にローカライズするよう指示することで作成された。
- 参考スコア(独自算出の注目度): 22.04656878186145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the MASSIVE dataset--Multilingual Amazon Slu resource package
(SLURP) for Slot-filling, Intent classification, and Virtual assistant
Evaluation. MASSIVE contains 1M realistic, parallel, labeled virtual assistant
utterances spanning 51 languages, 18 domains, 60 intents, and 55 slots. MASSIVE
was created by tasking professional translators to localize the English-only
SLURP dataset into 50 typologically diverse languages from 29 genera. We also
present modeling results on XLM-R and mT5, including exact match accuracy,
intent classification accuracy, and slot-filling F1 score. We have released our
dataset, modeling code, and models publicly.
- Abstract(参考訳): 我々は、Slot-filling、Intent Classification、Virtual Assistant EvaluationのためのMASSIVEデータセット--Multilingual Amazon Slu Resource Pack (SLURP)を提案する。
MASSIVEには、51の言語、18のドメイン、60のインテント、55のスロットにまたがる100Mのリアルで並列なラベル付き仮想アシスタント音声が含まれている。
massiveは、プロの翻訳者が英語のみのslurpデータセットを29の属から50の言語にローカライズすることで作成された。
また,XLM-RとmT5の正確なマッチング精度,意図分類精度,スロット充填F1スコアなどのモデリング結果を示す。
データセット、モデリングコード、モデルを公開しました。
関連論文リスト
- EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models [50.459861376459656]
EMMA-500は546言語にわたるテキストで継続訓練された大規模多言語言語モデルである。
本結果は,大規模言語モデルの言語能力拡大における継続事前学習の有効性を強調した。
論文 参考訳(メタデータ) (2024-09-26T14:40:45Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages
and Meaning Representations [25.50509874992198]
Cross-Lingual Semantic Parsingは、複数の自然言語のクエリを意味表現に変換することを目的としている。
既存のCLSPモデルは個別に提案され、限られたタスクやアプリケーションのデータセット上で評価される。
XSemPLRは、22の自然言語と8つの意味表現を特徴とする言語間意味解析のための統一的なベンチマークである。
論文 参考訳(メタデータ) (2023-06-07T01:09:37Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Evaluating Byte and Wordpiece Level Models for Massively Multilingual
Semantic Parsing [3.431659287330068]
バイトレベル(ByT5)とワードピースベース(mT5)をMASSIVE多言語意味解析データセットの51言語におけるシーケンスモデルと比較する。
すべての言語からのゴールドデータに基づいてトレーニングされたモデルに対して、正確なマッチング精度のギャップを5ポイントに縮めることができます。
論文 参考訳(メタデータ) (2022-12-14T13:48:32Z) - Language ID in the Wild: Unexpected Challenges on the Path to a
Thousand-Language Web Text Corpus [15.807197703827818]
我々は最大1,629の言語でLangIDモデルをトレーニングします。
これらのモデルを用いて作成したウェブクロールテキストコーパスの人手によるLangID精度は、多くの低リソース言語では5%程度であることがわかった。
本稿では,ワードリストに基づく可変精度フィルタとトランスフォーマーに基づく半教師付きラングIDモデルという2種類の手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T19:29:17Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters [31.705705891482594]
低音源言語における音声認識(ASR)の性能向上を目的とした,複数言語を対象とした単一音響モデルの訓練について検討した。
入力言語を知らずに1つの関節モデルから多言語学習の3つの変種を、この情報を用いて複数の頭部に比較する。
複数の言語でのASRモデルの多言語学習により、認識性能、特に低リソース言語での認識性能が向上することを示す。
論文 参考訳(メタデータ) (2020-07-06T18:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。