Fugu-MT 論文翻訳(概要): IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages

論文の概要: IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages

arxiv url: http://arxiv.org/abs/2505.03688v2
Date: Tue, 13 May 2025 11:11:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-14 12:30:10.406567
Title: IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages
Title（参考訳）: IndicSQuAD: インデックス言語のための包括的多言語質問回答データセット
Authors: Sharvi Endait, Ruturaj Ghatage, Aditya Kulkarni, Rajlaxmi Patil, Raviraj Joshi,
Abstract要約: IndicSQuADは9つの主要なIndic言語をカバーする包括的多言語抽出QAデータセットである。 IndicSQuADは、各言語に対する広範なトレーニング、検証、テストセットを含む。言語固有の単言語BERTモデルと多言語 MuRIL-BERT を用いたベースライン性能の評価を行った。
参考スコア（独自算出の注目度）: 0.4194295877935868
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid progress in question-answering (QA) systems has predominantly benefited high-resource languages, leaving Indic languages largely underrepresented despite their vast native speaker base. In this paper, we present IndicSQuAD, a comprehensive multi-lingual extractive QA dataset covering nine major Indic languages, systematically derived from the SQuAD dataset. Building on previous work with MahaSQuAD for Marathi, our approach adapts and extends translation techniques to maintain high linguistic fidelity and accurate answer-span alignment across diverse languages. IndicSQuAD comprises extensive training, validation, and test sets for each language, providing a robust foundation for model development. We evaluate baseline performances using language-specific monolingual BERT models and the multilingual MuRIL-BERT. The results indicate some challenges inherent in low-resource settings. Moreover, our experiments suggest potential directions for future work, including expanding to additional languages, developing domain-specific datasets, and incorporating multimodal data. The dataset and models are publicly shared at https://github.com/l3cube-pune/indic-nlp
Abstract（参考訳）: 質問応答システム(QA)の急速な進歩は、膨大なネイティブ話者基盤にもかかわらず、Indic言語がほとんど表現されていないため、主に高リソース言語に恩恵を与えている。本稿では、SQuADデータセットから体系的に派生した9つの主要なIndic言語をカバーする包括的多言語抽出QAデータセットであるIndicSQuADを提案する。 MarathiのMahaSQuADによる以前の研究に基づいて、多言語間の高い言語的忠実さと正確な回答スパンアライメントを維持するために翻訳手法を適応し、拡張する。 IndicSQuADは、各言語に対する広範なトレーニング、検証、テストセットを含み、モデル開発のための堅牢な基盤を提供する。言語固有の単言語BERTモデルと多言語 MuRIL-BERT を用いたベースライン性能の評価を行った。その結果,低リソース環境に固有の課題が示唆された。さらに,新たな言語への拡張,ドメイン固有のデータセットの開発,マルチモーダルデータの導入など,今後の研究の方向性を示唆する。データセットとモデルはhttps://github.com/l3cube-pune/indic-nlpで公開されています。

関連論文リスト

Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。 JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文参考訳（メタデータ） (2025-05-28T11:06:54Z)
Enhancing Multilingual Language Models for Code-Switched Input Data [0.0]
本研究では,コード切替データセット上でのマルチ言語BERT(mBERT)の事前学習により,重要なNLPタスクにおけるモデルの性能が向上するかどうかを検討する。本研究では,Spanglish ツイートのデータセットを用いて事前学習を行い,ベースラインモデルに対する事前学習モデルの評価を行う。以上の結果から,事前学習したmBERTモデルは,与えられたタスクのベースラインモデルよりも優れ,また,音声タグ付けの分野でも有意な改善が見られた。
論文参考訳（メタデータ） (2025-03-11T02:49:41Z)
BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation [28.456351723077088]
BOUQuETはマルチウェイ、マルチ中心、マルチレジストリ/ドメインのデータセットとベンチマークである。このデータセットは8つの非英語言語で手作りされている。
論文参考訳（メタデータ） (2025-02-06T18:56:37Z)
Multilingual State Space Models for Structured Question Answering in Indic Languages [2.591667713953504]
本稿では、Indic言語に適した効率的かつコンテキスト対応のQAシステムを構築するための状態空間モデル(SSM)の適用について検討する。 SSMはこのタスクに特に適しているのは、シーケンシャルデータにおける長期および短期の依存関係をモデル化できるためである。その結果,これらのモデルは言語的微妙さを効果的に捉え,質問文の解釈,コンテキストアライメント,回答生成の大幅な改善につながった。
論文参考訳（メタデータ） (2025-02-01T19:53:02Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Table Question Answering for Low-resourced Indic Languages [71.57359949962678]
TableQAは構造化された情報のテーブル上で質問に答え、個々のセルやテーブルを出力として返すタスクである。予算が限られている低リソース言語を対象とした,完全自動大規模テーブルQAデータ生成プロセスを提案する。表QAデータセットやモデルを持たない2つのIndic言語であるBengaliとHindiにデータ生成手法を組み込む。
論文参考訳（メタデータ） (2024-10-04T16:26:12Z)
INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [25.402797722575805]
インデックスQAベンチマーク(Indic QA Benchmark)は、インドの主要言語11言語を対象にした、文脈に基づく質問応答のためのデータセットである。評価の結果,学習データに強い英語バイアスがあるため,低資源言語では弱い性能を示した。また、入力を英語に翻訳して処理し、その結果をソース言語に変換して出力するTranslate Testパラダイムについても検討した。
論文参考訳（メタデータ） (2024-07-18T13:57:16Z)
Krutrim LLM: A Novel Tokenization Strategy for Multilingual Indic Languages with Petabyte-Scale Data Processing [0.9517284168469607]
我々は,多言語Indic大言語モデル構築のためのデータ準備のための新しいアプローチを開発する。われわれの厳密なデータ取得は、Common Crawl、Indic Book、ニュース記事、Wikipediaなど、オープンソースとプロプライエタリなソースにまたがっている。 Indic言語毎に、冗長で低品質なテキストコンテンツを効果的に除去するカスタムプリプロセッシングパイプラインを設計する。
論文参考訳（メタデータ） (2024-07-17T11:06:27Z)
mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans [27.84922167294656]
言語固有の知識と常識のためにデータセットをキュレートすることは困難である。現在の多言語データセットの多くは翻訳によって作成されており、そのような言語固有の側面を評価できない。 CSQAの構築プロセスに基づくマルチ言語コモンセンスQA(mCSQA)を提案する。
論文参考訳（メタデータ） (2024-06-06T16:14:54Z)
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文参考訳（メタデータ） (2024-02-09T18:51:49Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。 Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文参考訳（メタデータ） (2022-12-20T17:34:25Z)
GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文参考訳（メタデータ） (2021-10-14T19:33:04Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。