論文の概要: Bloom Library: Multimodal Datasets in 300+ Languages for a Variety of
Downstream Tasks
- arxiv url: http://arxiv.org/abs/2210.14712v1
- Date: Wed, 26 Oct 2022 13:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:11:48.984689
- Title: Bloom Library: Multimodal Datasets in 300+ Languages for a Variety of
Downstream Tasks
- Title(参考訳): Bloom Library:ダウンストリームタスクを多用する300以上の言語におけるマルチモーダルデータセット
- Authors: Colin Leong, Joshua Nemecek, Jacob Mansdorfer, Anna Filighera, Abraham
Owodunni, and Daniel Whitenack
- Abstract要約: Bloom Libraryデータセットの最初のリリースは、32の言語ファミリーにわたる363の言語をカバーしている。
これらファースト・オブ・ザ・キンドのベースラインのいくつかは、高リソース言語の最先端のパフォーマンスに匹敵するものである。
- 参考スコア(独自算出の注目度): 0.007696728525672149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Bloom Library, a linguistically diverse set of multimodal and
multilingual datasets for language modeling, image captioning, visual
storytelling, and speech synthesis/recognition. These datasets represent either
the most, or among the most, multilingual datasets for each of the included
downstream tasks. In total, the initial release of the Bloom Library datasets
covers 363 languages across 32 language families. We train downstream task
models for various languages represented in the data, showing the viability of
the data for future work in low-resource, multimodal NLP and establishing the
first known baselines for these downstream tasks in certain languages (e.g.,
Bisu [bzi], with an estimated population of 700 users). Some of these
first-of-their-kind baselines are comparable to state-of-the-art performance
for higher-resourced languages. The Bloom Library datasets are released under
Creative Commons licenses on the Hugging Face datasets hub to catalyze more
linguistically diverse research in the included downstream tasks.
- Abstract(参考訳): 本稿では、言語モデル、画像キャプション、ビジュアルストーリーテリング、音声合成/認識のための多言語・多言語データセットであるbloom libraryを提案する。
これらのデータセットは、入力された下流タスクごとに最も、最も、最も、最も、多言語的なデータセットを表す。
Bloom Libraryデータセットの最初のリリースは、32の言語ファミリーにわたる363の言語をカバーしている。
我々は、データに表される様々な言語に対する下流タスクモデルを訓練し、低リソースのマルチモーダルNLPにおける将来の作業のためのデータの有効性を示し、特定の言語(例えば、Bisu[bzi]、推定人口700人)における下流タスクの最初の既知のベースラインを確立する。
これらの初歩的なベースラインのいくつかは、高ソース言語における最先端のパフォーマンスに匹敵するものだ。
Bloom Libraryデータセットは、Hugging Faceデータセットハブ上でCreative Commonsライセンス下でリリースされ、下流タスクのより言語的に多様な研究を触媒する。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic
Classification in 200+ Languages and Dialects [9.501383449039142]
我々は200の言語と方言のトピック分類のための大規模ベンチマークデータセットであるSIB-200を開発した。
SIB-200でカバーされている多くの言語に対して、これは自然言語理解のための最初の公開評価データセットである。
その結果、多言語モデル、表現不足言語家族、アフリカ、アメリカ、オセアニア、東南アジアの言語が事前学習中に見つからない言語は、トピック分類データセット上で最も低いパフォーマンスを持つことが多いことがわかった。
論文 参考訳(メタデータ) (2023-09-14T05:56:49Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Large Scale Multi-Lingual Multi-Modal Summarization Dataset [26.92121230628835]
現在最大の多言語マルチモーダル要約データセット(M3LS)を提示する。
それは100万以上のドキュメントイメージペアのインスタンスと、それぞれに専門的な注釈付きマルチモーダル要約で構成されています。
また、13言語に対する最大の要約データセットであり、2言語に対する言語間要約データで構成されている。
論文 参考訳(メタデータ) (2023-02-13T18:00:23Z) - EUR-Lex-Sum: A Multi- and Cross-lingual Dataset for Long-form
Summarization in the Legal Domain [2.4815579733050157]
欧州連合法プラットフォーム(EUR-Lex)の法的行為を手作業でキュレートした文書要約に基づいて,EUR-Lex-Sumと呼ばれる新しいデータセットを提案する。
文書とその要約は、24の公用語のうちいくつかの言語間の段落整列データとして存在している。
言語毎に最大1,500の文書/要約ペアを取得し、24言語すべてで利用可能なテキストを含む375の言語横断的な法的行為のサブセットを含む。
論文 参考訳(メタデータ) (2022-10-24T17:58:59Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - The Tatoeba Translation Challenge -- Realistic Data Sets for Low
Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。
主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文 参考訳(メタデータ) (2020-10-13T13:12:21Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。