論文の概要: Towards Leaving No Indic Language Behind: Building Monolingual Corpora,
Benchmark and Models for Indic Languages
- arxiv url: http://arxiv.org/abs/2212.05409v3
- Date: Wed, 24 May 2023 17:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 02:41:53.894422
- Title: Towards Leaving No Indic Language Behind: Building Monolingual Corpora,
Benchmark and Models for Indic Languages
- Title(参考訳): indic languageを置き去りにする - 単言語コーパスの構築,ベンチマーク,indic languageのモデル
- Authors: Sumanth Doddapaneni, Rahul Aralikatte, Gowtham Ramesh, Shreya Goyal,
Mitesh M. Khapra, Anoop Kunchukuttan, Pratyush Kumar
- Abstract要約: 3つの重要な軸に沿ってコントリビューションを行うことで、Indic言語のNLU機能を改善することを目指している。
具体的には、4つの言語ファミリーの24言語をカバーする20.9Bトークンで、最大のモノリンガルコーパスであるIndicCorpをキュレートする。
我々は、20言語をカバーする9つの異なるNLUタスクからなる人間によるベンチマークIndicXTREMEを作成する。
言語やタスク全体にわたって、IndicXTREMEには合計105の評価セットが含まれており、そのうち52が新たな文献への貢献である。
- 参考スコア(独自算出の注目度): 19.91781398526369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building Natural Language Understanding (NLU) capabilities for Indic
languages, which have a collective speaker base of more than one billion
speakers is absolutely crucial. In this work, we aim to improve the NLU
capabilities of Indic languages by making contributions along 3 important axes
(i) monolingual corpora (ii) NLU testsets (iii) multilingual LLMs focusing on
Indic languages. Specifically, we curate the largest monolingual corpora,
IndicCorp, with 20.9B tokens covering 24 languages from 4 language families - a
2.3x increase over prior work, while supporting 12 additional languages. Next,
we create a human-supervised benchmark, IndicXTREME, consisting of nine diverse
NLU tasks covering 20 languages. Across languages and tasks, IndicXTREME
contains a total of 105 evaluation sets, of which 52 are new contributions to
the literature. To the best of our knowledge, this is the first effort towards
creating a standard benchmark for Indic languages that aims to test the
multilingual zero-shot capabilities of pretrained language models. Finally, we
train IndicBERT v2, a state-of-the-art model supporting all the languages.
Averaged across languages and tasks, the model achieves an absolute improvement
of 2 points over a strong baseline. The data and models are available at
https://github.com/AI4Bharat/IndicBERT.
- Abstract(参考訳): 10億以上の話者からなる集合話者ベースを持つIndic言語のための自然言語理解(NLU)機能の構築は、極めて重要です。
本研究では,3つの重要な軸に沿ってコントリビューションを行うことで,Indic言語のNLU能力の向上を目指す。
(i)単言語コーパス
(ii)NLUテストセット
(iii)多言語LLMがIndic言語に焦点を当てている。
具体的には、最大の単言語コーポラであるindiccorpを、4つの言語ファミリーから24の言語をカバーする20.9bトークンで管理しています。
次に、20言語をカバーする9つのNLUタスクからなる人間によるベンチマークIndicXTREMEを作成する。
言語やタスク全体にわたって、IndicXTREMEには合計105の評価セットが含まれており、52が新たな文献への貢献である。
我々の知る限りでは、事前訓練された言語モデルの多言語ゼロショット機能をテストすることを目的とした、Indic言語の標準ベンチマークを作成するための最初の取り組みである。
最後に、すべての言語をサポートする最先端のモデルであるIndicBERT v2をトレーニングします。
言語やタスクで平均されるモデルは、強いベースラインに対して2ポイントの絶対的な改善を達成する。
データとモデルはhttps://github.com/AI4Bharat/IndicBERT.comで入手できる。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages [12.514648269553104]
IndicGenBenchは、大規模言語モデル(LLM)を評価するための最大のベンチマークである。
言語間要約、機械翻訳、言語間質問応答などの多様な世代タスクで構成されている。
最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して全ての言語で顕著な性能差がある。
論文 参考訳(メタデータ) (2024-04-25T17:57:36Z) - Aya Model: An Instruction Finetuned Open-Access Multilingual Language
Model [33.87586041774359]
Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。
99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。
我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
論文 参考訳(メタデータ) (2024-02-12T17:34:13Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - IndicTrans2: Towards High-Quality and Accessible Machine Translation
Models for all 22 Scheduled Indian Languages [37.758476568195256]
インドは10億人以上の人々が話す4つの主要言語族の言語と共に豊かな言語風景を持っている。
これらの言語のうち22はインド憲法に記載されている(予定言語として参照)。
論文 参考訳(メタデータ) (2023-05-25T17:57:43Z) - V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages [21.018996007110324]
このデータセットには14の異なるIndic言語(および英語)の480万のニュース記事が含まれている。
私たちの知る限りでは、現在利用可能なIndic言語のキュレートされた記事のコレクションとしては、これが最大です。
論文 参考訳(メタデータ) (2023-05-10T03:07:17Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Role of Language Relatedness in Multilingual Fine-tuning of Language
Models: A Case Study in Indo-Aryan Languages [34.79533646549939]
我々は,多言語微調整を用いたNLPモデルにおいて,同族に属する言語の関連性を活用した影響について検討する。
Oriya や Punjabi のような低資源言語は多言語微調整の最大の受益者である。
論文 参考訳(メタデータ) (2021-09-22T06:37:39Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。