論文の概要: IndicRAGSuite: Large-Scale Datasets and a Benchmark for Indian Language RAG Systems
- arxiv url: http://arxiv.org/abs/2506.01615v2
- Date: Tue, 03 Jun 2025 12:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.746605
- Title: IndicRAGSuite: Large-Scale Datasets and a Benchmark for Indian Language RAG Systems
- Title(参考訳): IndicRAGSuite: 大規模データセットとインド語RAGシステムのベンチマーク
- Authors: Pasunuti Prasanjith, Prathmesh B More, Anoop Kunchukuttan, Raj Dabre,
- Abstract要約: IndicMSMarcoは13のインドの言語における検索品質と応答生成を評価するための多言語ベンチマークである。
我々は、最先端のLLMを用いて、19のインドの言語ウィキペディアから派生した大規模な(質問、回答、関連する)データセットを構築した。
- 参考スコア(独自算出の注目度): 17.88837706307504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems enable language models to access relevant information and generate accurate, well-grounded, and contextually informed responses. However, for Indian languages, the development of high-quality RAG systems is hindered by the lack of two critical resources: (1) evaluation benchmarks for retrieval and generation tasks, and (2) large-scale training datasets for multilingual retrieval. Most existing benchmarks and datasets are centered around English or high-resource languages, making it difficult to extend RAG capabilities to the diverse linguistic landscape of India. To address the lack of evaluation benchmarks, we create IndicMSMarco, a multilingual benchmark for evaluating retrieval quality and response generation in 13 Indian languages, created via manual translation of 1000 diverse queries from MS MARCO-dev set. To address the need for training data, we build a large-scale dataset of (question, answer, relevant passage) tuples derived from the Wikipedias of 19 Indian languages using state-of-the-art LLMs. Additionally, we include translated versions of the original MS MARCO dataset to further enrich the training data and ensure alignment with real-world information-seeking tasks. Resources are available here: https://huggingface.co/collections/ai4bharat/indicragsuite-683e7273cb2337208c8c0fcb
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、言語モデルが関連する情報にアクセスし、正確で、よく理解され、文脈的に情報を得た応答を生成することを可能にする。
しかし、インドの言語では、高品質なRAGシステムの開発は、(1)検索および生成タスクの評価ベンチマーク、(2)多言語検索のための大規模トレーニングデータセットの2つの重要なリソースの欠如によって妨げられている。
既存のベンチマークやデータセットのほとんどは、英語や高リソース言語を中心にしているため、RAG機能をインドの多様な言語環境に拡張することは困難である。
評価ベンチマークの欠如に対処するため、インド語13言語で検索品質と応答生成を評価するための多言語ベンチマークであるIndicMSMarcoを作成し、MS MARCO-devセットから1000種類のクエリを手動で翻訳した。
トレーニングデータの必要性に対処するため、最先端のLLMを用いて、19のインドの言語ウィキペディアから派生した大規模な(質問、回答、関連する)タプルデータセットを構築した。
さらに、トレーニングデータをさらに強化し、実世界の情報検索タスクとの整合性を確保するため、元のMS MARCOデータセットの翻訳版を含める。
https://huggingface.co/collections/ai4bharat/indicragsuite-683e7273cb2337208c8c0fcb
関連論文リスト
- POLYCHARTQA: Benchmarking Large Vision-Language Models with Multilingual Chart Question Answering [69.52231076699756]
PolyChartQAは10の言語で22,606のチャートと26,151の質問応答ペアをカバーする最初の大規模多言語チャート回答ベンチマークである。
我々は、最先端のLLMベースの翻訳を活用し、パイプラインにおける厳密な品質制御を適用し、生成された多言語チャートの言語的および意味的一貫性を確保する。
論文 参考訳(メタデータ) (2025-07-16T06:09:02Z) - IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages [0.4194295877935868]
IndicSQuADは9つの主要なIndic言語をカバーする包括的多言語抽出QAデータセットである。
IndicSQuADは、各言語に対する広範なトレーニング、検証、テストセットを含む。
言語固有の単言語BERTモデルと多言語 MuRIL-BERT を用いたベースライン性能の評価を行った。
論文 参考訳(メタデータ) (2025-05-06T16:42:54Z) - Towards Building Large Scale Datasets and State-of-the-Art Automatic Speech Translation Systems for 14 Indian Languages [27.273651323572786]
BhasaAnuvaadは、インドの言語で最大の音声翻訳データセットで、4400万時間以上のオーディオと1700万行のテキストセグメントにまたがる。
本実験は, 翻訳品質の向上を実証し, インド語音声翻訳の新しい標準を設定した。
アクセシビリティとコラボレーションを促進するために、許容ライセンス付きのすべてのコード、データ、モデルの重みをオープンソースでリリースします。
論文 参考訳(メタデータ) (2024-11-07T13:33:34Z) - Hindi-BEIR : A Large Scale Retrieval Benchmark in Hindi [8.21020989074456]
進行中の研究にもかかわらず、ヒンディー語で検索モデルを評価するための包括的なベンチマークが欠如している。
我々は、ヒンディー語に翻訳された英語のBEIRデータセットのサブセット、既存のヒンディー語検索データセット、検索用の合成データセットを含むBEIRベンチマークのヒンディー語版を紹介する。
本ベンチマークでは,タスクやドメイン固有の課題の特定と検索性能への影響を明らかにするため,最先端の多言語検索モデルの評価を行う。
論文 参考訳(メタデータ) (2024-08-18T10:55:04Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。