論文の概要: IndicRAGSuite: Large-Scale Datasets and a Benchmark for Indian Language RAG Systems
- arxiv url: http://arxiv.org/abs/2506.01615v2
- Date: Tue, 03 Jun 2025 12:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.746605
- Title: IndicRAGSuite: Large-Scale Datasets and a Benchmark for Indian Language RAG Systems
- Title(参考訳): IndicRAGSuite: 大規模データセットとインド語RAGシステムのベンチマーク
- Authors: Pasunuti Prasanjith, Prathmesh B More, Anoop Kunchukuttan, Raj Dabre,
- Abstract要約: IndicMSMarcoは13のインドの言語における検索品質と応答生成を評価するための多言語ベンチマークである。
我々は、最先端のLLMを用いて、19のインドの言語ウィキペディアから派生した大規模な(質問、回答、関連する)データセットを構築した。
- 参考スコア(独自算出の注目度): 17.88837706307504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems enable language models to access relevant information and generate accurate, well-grounded, and contextually informed responses. However, for Indian languages, the development of high-quality RAG systems is hindered by the lack of two critical resources: (1) evaluation benchmarks for retrieval and generation tasks, and (2) large-scale training datasets for multilingual retrieval. Most existing benchmarks and datasets are centered around English or high-resource languages, making it difficult to extend RAG capabilities to the diverse linguistic landscape of India. To address the lack of evaluation benchmarks, we create IndicMSMarco, a multilingual benchmark for evaluating retrieval quality and response generation in 13 Indian languages, created via manual translation of 1000 diverse queries from MS MARCO-dev set. To address the need for training data, we build a large-scale dataset of (question, answer, relevant passage) tuples derived from the Wikipedias of 19 Indian languages using state-of-the-art LLMs. Additionally, we include translated versions of the original MS MARCO dataset to further enrich the training data and ensure alignment with real-world information-seeking tasks. Resources are available here: https://huggingface.co/collections/ai4bharat/indicragsuite-683e7273cb2337208c8c0fcb
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、言語モデルが関連する情報にアクセスし、正確で、よく理解され、文脈的に情報を得た応答を生成することを可能にする。
しかし、インドの言語では、高品質なRAGシステムの開発は、(1)検索および生成タスクの評価ベンチマーク、(2)多言語検索のための大規模トレーニングデータセットの2つの重要なリソースの欠如によって妨げられている。
既存のベンチマークやデータセットのほとんどは、英語や高リソース言語を中心にしているため、RAG機能をインドの多様な言語環境に拡張することは困難である。
評価ベンチマークの欠如に対処するため、インド語13言語で検索品質と応答生成を評価するための多言語ベンチマークであるIndicMSMarcoを作成し、MS MARCO-devセットから1000種類のクエリを手動で翻訳した。
トレーニングデータの必要性に対処するため、最先端のLLMを用いて、19のインドの言語ウィキペディアから派生した大規模な(質問、回答、関連する)タプルデータセットを構築した。
さらに、トレーニングデータをさらに強化し、実世界の情報検索タスクとの整合性を確保するため、元のMS MARCOデータセットの翻訳版を含める。
https://huggingface.co/collections/ai4bharat/indicragsuite-683e7273cb2337208c8c0fcb
関連論文リスト
- IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages [0.4194295877935868]
IndicSQuADは9つの主要なIndic言語をカバーする包括的多言語抽出QAデータセットである。
IndicSQuADは、各言語に対する広範なトレーニング、検証、テストセットを含む。
言語固有の単言語BERTモデルと多言語 MuRIL-BERT を用いたベースライン性能の評価を行った。
論文 参考訳(メタデータ) (2025-05-06T16:42:54Z) - Towards Building Large Scale Datasets and State-of-the-Art Automatic Speech Translation Systems for 14 Indian Languages [27.273651323572786]
BhasaAnuvaadは、インドの言語で最大の音声翻訳データセットで、4400万時間以上のオーディオと1700万行のテキストセグメントにまたがる。
本実験は, 翻訳品質の向上を実証し, インド語音声翻訳の新しい標準を設定した。
アクセシビリティとコラボレーションを促進するために、許容ライセンス付きのすべてのコード、データ、モデルの重みをオープンソースでリリースします。
論文 参考訳(メタデータ) (2024-11-07T13:33:34Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。