論文の概要: IndicIRSuite: Multilingual Dataset and Neural Information Models for
Indian Languages
- arxiv url: http://arxiv.org/abs/2312.09508v1
- Date: Fri, 15 Dec 2023 03:19:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 17:29:00.326318
- Title: IndicIRSuite: Multilingual Dataset and Neural Information Models for
Indian Languages
- Title(参考訳): IndicIRSuite:インド語の多言語データセットとニューラル情報モデル
- Authors: Saiful Haq, Ashutosh Sharma, Pushpak Bhattacharyya
- Abstract要約: 本稿では,11言語を対象にニューラル・インフォメーション・検索リソースを提案する。
これらのリソースには、(a) INDIC-MARCO、MSMARCOデータセットの多言語版であるMSMARCO、(b) Indic-ColBERT、11の異なるモノリンガルニューラルネットワーク検索モデルのコレクションが含まれる。
IndicIRSuiteは、多数のインド言語に対して大規模なニューラル情報検索リソースを構築する最初の試みである。
- 参考スコア(独自算出の注目度): 42.50384290676914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce Neural Information Retrieval resources for 11
widely spoken Indian Languages (Assamese, Bengali, Gujarati, Hindi, Kannada,
Malayalam, Marathi, Oriya, Punjabi, Tamil, and Telugu) from two major Indian
language families (Indo-Aryan and Dravidian). These resources include (a)
INDIC-MARCO, a multilingual version of the MSMARCO dataset in 11 Indian
Languages created using Machine Translation, and (b) Indic-ColBERT, a
collection of 11 distinct Monolingual Neural Information Retrieval models, each
trained on one of the 11 languages in the INDIC-MARCO dataset. To the best of
our knowledge, IndicIRSuite is the first attempt at building large-scale Neural
Information Retrieval resources for a large number of Indian languages, and we
hope that it will help accelerate research in Neural IR for Indian Languages.
Experiments demonstrate that Indic-ColBERT achieves 47.47% improvement in the
MRR@10 score averaged over the INDIC-MARCO baselines for all 11 Indian
languages except Oriya, 12.26% improvement in the NDCG@10 score averaged over
the MIRACL Bengali and Hindi Language baselines, and 20% improvement in the
MRR@100 Score over the Mr.Tydi Bengali Language baseline. IndicIRSuite is
available at https://github.com/saifulhaq95/IndicIRSuite
- Abstract(参考訳): 本稿では,インドで話されている11言語(アサム語,ベンガル語,グジャラティ語,ヒンディー語,カンナダ語,マラヤラム語,マラティ語,オリヤ語,パンジャビ語,タミル語,テルグ語)について,インドの主要2言語族(インド・アーリア語,ドレイダ語)の神経情報検索資源を紹介する。
これらの資源には
(a)INDIC-MARCO、機械翻訳を用いて作成した11のインド言語におけるMSMARCOデータセットの多言語版
(b)Indic-ColBERTは11の異なるモノリンガルニューラル情報検索モデルのコレクションであり、それぞれINDIC-MARCOデータセットの11言語のうちの1つで訓練されている。
私たちの知る限りでは、IndicIRSuiteは、多数のインド言語に対して大規模なニューラル情報検索リソースを構築する最初の試みであり、インド言語のためのニューラルIRの研究を加速させることを願っている。
実験により、indic-colbertは、オリヤを除く11のインド諸言語のindic-marcoベースラインよりも平均47.47%、miracl bengaliとhindiのベースラインで平均12.26%、mrr@100スコアがmr.tydi bengaliのベースラインよりも20%改善されていることが示されている。
IndicIRSuiteはhttps://github.com/saifulhaq95/IndicIRSuiteで入手できる。
関連論文リスト
- BhasaAnuvaad: A Speech Translation Dataset for 13 Indian Languages [27.273651323572786]
インド語における広く使われている自動音声翻訳システムの性能を評価する。
口語と非公式の言語を正確に翻訳できるシステムが存在しないことは顕著である。
BhasaAnuvaadを紹介します。ASTの公開データセットとしては最大で、22のインド言語と英語のうち13が対象です。
論文 参考訳(メタデータ) (2024-11-07T13:33:34Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - SPRING-INX: A Multilingual Indian Language Speech Corpus by SPRING Lab,
IIT Madras [1.4699314771635081]
インド国民のための音声ベースのアプリケーションを構築することは、限られたデータと対応すべき言語やアクセントの数のために難しい問題である。
我々は、アサメ、ベンガル、グジャラート、ヒンディー、カナダ、マラヤラム、マラティア、オディア、パンジャビ、タミルのASRシステム構築のための2000時間に及ぶ法的および手書きの音声データをオープンソース化している。
論文 参考訳(メタデータ) (2023-10-23T07:50:10Z) - IndicTrans2: Towards High-Quality and Accessible Machine Translation
Models for all 22 Scheduled Indian Languages [37.758476568195256]
インドは10億人以上の人々が話す4つの主要言語族の言語と共に豊かな言語風景を持っている。
これらの言語のうち22はインド憲法に記載されている(予定言語として参照)。
論文 参考訳(メタデータ) (2023-05-25T17:57:43Z) - Summarizing Indian Languages using Multilingual Transformers based
Models [13.062351454646912]
本研究では、これらの多言語モデルが、原文およびターゲットテキストとしてインド語を持つデータセット上でどのように機能するかを検討する。
IndicBARTおよびmT5モデルを用いて実験を行い, ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4のスコアを評価指標として報告する。
論文 参考訳(メタデータ) (2023-03-29T13:05:17Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文 参考訳(メタデータ) (2020-07-15T14:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。