論文の概要: IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic
Languages
- arxiv url: http://arxiv.org/abs/2203.05437v1
- Date: Thu, 10 Mar 2022 15:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 14:26:03.743212
- Title: IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic
Languages
- Title(参考訳): IndicNLG Suite: 言語におけるNLGタスクの多言語データセット
- Authors: Aman Kumar, Himani Shrotriya, Prachi Sahu, Raj Dabre, Ratish
Puduppully, Anoop Kunchukuttan, Amogh Mishra, Mitesh M. Khapra, Pratyush
Kumar
- Abstract要約: 本稿では,11言語を対象とした自然言語生成をベンチマークするデータセットの集合であるIndicNLGスイートを提案する。
本稿では,ウィキペディア情報ボックス(WikiBio)を用いたバイオグラフィー生成,ニュース見出し生成,文要約,質問生成,パラフレーズ生成の5つのタスクに着目した。
- 参考スコア(独自算出の注目度): 23.157951796614466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present the IndicNLG suite, a collection of datasets for
benchmarking Natural Language Generation (NLG) for 11 Indic languages. We focus
on five diverse tasks, namely, biography generation using Wikipedia infoboxes
(WikiBio), news headline generation, sentence summarization, question
generation and paraphrase generation. We describe the process of creating the
datasets and present statistics of the dataset, following which we train and
report a variety of strong monolingual and multilingual baselines that leverage
pre-trained sequence-to-sequence models and analyze the results to understand
the challenges involved in Indic language NLG. To the best of our knowledge,
this is the first NLG dataset for Indic languages and also the largest
multilingual NLG dataset. Our methods can also be easily applied to
modest-resource languages with reasonable monolingual and parallel corpora, as
well as corpora containing structured data like Wikipedia. We hope this dataset
spurs research in NLG on diverse languages and tasks, particularly for Indic
languages. The datasets and models are publicly available at
https://indicnlp.ai4bharat.org/indicnlg-suite.
- Abstract(参考訳): 本稿では,11言語を対象とした自然言語生成(NLG)をベンチマークするデータセットの集合であるIndicNLGスイートを提案する。
本稿では,ウィキペディア情報ボックス(WikiBio)を用いた伝記生成,ニュース見出し生成,文要約,質問生成,パラフレーズ生成の5つのタスクに着目した。
本稿では、データセットの作成プロセスとデータセットの統計結果について述べる。続いて、トレーニング済みのシーケンス・ツー・シーケンスモデルを利用した強力な単言語および多言語ベースラインのトレーニングとレポートを行い、その結果を分析し、Indic言語NLGに関わる課題を理解する。
我々の知る限りでは、これはIndic言語のための最初のNLGデータセットであり、また最大の多言語NLGデータセットである。
また、wikipediaのような構造化データを含むコーパスと同様に、適度な単言語および並列コーパスを持つ控えめなリソース言語にも容易に適用できる。
このデータセットが、多種多様な言語やタスク、特にIndic言語の研究を促進することを願っています。
データセットとモデルはhttps://indicnlp.ai4bharat.org/indicnlg-suiteで公開されている。
関連論文リスト
- MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions [54.08017526771947]
MURI(Multilingual Reverse Instructions)は低リソース言語のための高品質な命令チューニングデータセットを生成する。
MURIは、低リソース言語における既存の人文テキストから命令出力ペアを生成する。
私たちのデータセットであるMURI-ITには200言語にまたがる200万以上の命令出力ペアが含まれています。
論文 参考訳(メタデータ) (2024-09-19T17:59:20Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Pretraining Data and Tokenizer for Indic LLM [1.7729311045335219]
我々は,多言語Indic大言語モデル構築のためのデータ準備のための新しいアプローチを開発する。
われわれの厳密なデータ取得は、Common Crawl、Indic Book、ニュース記事、Wikipediaなど、オープンソースとプロプライエタリなソースにまたがっている。
Indic言語毎に、冗長で低品質なテキストコンテンツを効果的に除去するカスタムプリプロセッシングパイプラインを設計する。
論文 参考訳(メタデータ) (2024-07-17T11:06:27Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - L3Cube-IndicNews: News-based Short Text and Long Document Classification Datasets in Indic Languages [0.4194295877935868]
L3Cube-IndicNewsは、インドの地域言語のための高品質なデータセットのキュレーションを目的とした多言語テキスト分類コーパスである。
私たちはヒンディー語、ベンガル語、マラティ語、テルグ語、タミル語、グジャラート語、カンナダ語、オディア語、マラヤラム語、パンジャービ語を含む10の著名なインド語を中心にしています。
これらのニュースデータセットはそれぞれ10以上のニュース記事のクラスで構成されている。
論文 参考訳(メタデータ) (2024-01-04T13:11:17Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages [21.018996007110324]
このデータセットには14の異なるIndic言語(および英語)の480万のニュース記事が含まれている。
私たちの知る限りでは、現在利用可能なIndic言語のキュレートされた記事のコレクションとしては、これが最大です。
論文 参考訳(メタデータ) (2023-05-10T03:07:17Z) - IndicXNLI: Evaluating Multilingual Inference for Indian Languages [9.838755823660147]
IndicXNLIは11のIndic言語のためのNLIデータセットである。
IndicXNLIで事前学習した異なるLMを微調整することにより、様々な言語間移動手法を解析する。
これらの実験は、様々な言語に対する事前学習されたモデルの振る舞いに関する有用な洞察を提供する。
論文 参考訳(メタデータ) (2022-04-19T09:49:00Z) - GLGE: A New General Language Generation Evaluation Benchmark [139.25515221280767]
General Language Generation Evaluation (GLGE)は、NLGモデルの一般化能力を評価するための新しいマルチタスクベンチマークである。
NLGモデルにおける事前学習と伝達学習の研究を促進するため、GLGEを一般公開し、強力なベースラインを持つリーダーボードを構築する。
論文 参考訳(メタデータ) (2020-11-24T06:59:45Z) - The Tatoeba Translation Challenge -- Realistic Data Sets for Low
Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。
主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文 参考訳(メタデータ) (2020-10-13T13:12:21Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。