論文の概要: Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages
- arxiv url: http://arxiv.org/abs/2305.08487v2
- Date: Tue, 4 Jun 2024 15:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 14:36:23.603884
- Title: Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages
- Title(参考訳): Taxi1500:1500言語におけるテキスト分類のための多言語データセット
- Authors: Chunlan Ma, Ayyoob ImaniGooghari, Haotian Ye, Renhao Pei, Ehsaneddin Asgari, Hinrich Schütze,
- Abstract要約: 我々は、多数の言語を含むテキスト分類データセットを作成することを目指している。
我々は、このようなデータセットを構築するために聖書の平行翻訳を利用する。
データの英語側をアノテートし、アライメントされた節を通してラベルを他の言語に投影することにより、1500以上の言語に対してテキスト分類データセットを生成する。
- 参考スコア(独自算出の注目度): 40.01333053375582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While natural language processing tools have been developed extensively for some of the world's languages, a significant portion of the world's over 7000 languages are still neglected. One reason for this is that evaluation datasets do not yet cover a wide range of languages, including low-resource and endangered ones. We aim to address this issue by creating a text classification dataset encompassing a large number of languages, many of which currently have little to no annotated data available. We leverage parallel translations of the Bible to construct such a dataset by first developing applicable topics and employing a crowdsourcing tool to collect annotated data. By annotating the English side of the data and projecting the labels onto other languages through aligned verses, we generate text classification datasets for more than 1500 languages. We extensively benchmark several existing multilingual language models using our dataset. To facilitate the advancement of research in this area, we will release our dataset and code.
- Abstract(参考訳): 自然言語処理ツールは世界の一部の言語で広く開発されているが、世界の7000以上の言語の大部分はいまだに無視されている。
この理由の1つは、評価データセットが低リソースや絶滅危惧言語を含む幅広い言語をまだカバーしていないことである。
我々は、多数の言語を含むテキスト分類データセットを作成し、この問題に対処することを目指している。
我々は聖書の並列翻訳を利用して、まず適用可能なトピックを開発し、クラウドソーシングツールを使って注釈付きデータを収集することで、そのようなデータセットを構築する。
データの英語側をアノテートし、アライメントされた節を通してラベルを他の言語に投影することにより、1500以上の言語に対してテキスト分類データセットを生成する。
データセットを用いて、既存の多言語言語モデルを広範囲にベンチマークする。
この分野での研究の進展を促進するため、私たちはデータセットとコードを公開します。
関連論文リスト
- Universal Cross-Lingual Text Classification [0.3958317527488535]
本研究は,言語横断テキスト分類における新たな視点を提案する。
我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。
主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。
論文 参考訳(メタデータ) (2024-06-16T17:58:29Z) - IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic
Classification in 200+ Languages and Dialects [9.501383449039142]
我々は200の言語と方言のトピック分類のための大規模ベンチマークデータセットであるSIB-200を開発した。
SIB-200でカバーされている多くの言語に対して、これは自然言語理解のための最初の公開評価データセットである。
その結果、多言語モデル、表現不足言語家族、アフリカ、アメリカ、オセアニア、東南アジアの言語が事前学習中に見つからない言語は、トピック分類データセット上で最も低いパフォーマンスを持つことが多いことがわかった。
論文 参考訳(メタデータ) (2023-09-14T05:56:49Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - TaTa: A Multilingual Table-to-Text Dataset for African Languages [32.348630887289524]
アフリカ言語におけるテーブル・トゥ・テキスト(TaTa)は、アフリカ言語に焦点を当てた最初の大規模多言語テーブル・トゥ・テキストデータセットである。
TaTaには、アフリカの4つの言語(Hausa、Igbo、Swahili、Yorub'a)とゼロショットテスト言語(ロシア語)を含む9つの言語で8,700の例が含まれている。
論文 参考訳(メタデータ) (2022-10-31T21:05:42Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - The Tatoeba Translation Challenge -- Realistic Data Sets for Low
Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。
主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文 参考訳(メタデータ) (2020-10-13T13:12:21Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。