Fugu-MT 論文翻訳(概要): NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

論文の概要: NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

arxiv url: http://arxiv.org/abs/2603.05462v1
Date: Thu, 05 Mar 2026 18:35:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.369934
Title: NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance
Title（参考訳）: NCTB-QA: データセットとベンチマークパフォーマンスに答える大規模バングラの教育的質問
Authors: Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim,
Abstract要約: NCTB-QAは大規模なバングラ質問応答データセットである。本研究では,低リソース環境において,ドメイン固有の微調整がロバストな性能に重要であることを示す。
参考スコア（独自算出の注目度）: 0.9711326718689494
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reading comprehension systems for low-resource languages face significant challenges in handling unanswerable questions. These systems tend to produce unreliable responses when correct answers are absent from context. To solve this problem, we introduce NCTB-QA, a large-scale Bangla question answering dataset comprising 87,805 question-answer pairs extracted from 50 textbooks published by Bangladesh's National Curriculum and Textbook Board. Unlike existing Bangla datasets, NCTB-QA maintains a balanced distribution of answerable (57.25%) and unanswerable (42.75%) questions. NCTB-QA also includes adversarially designed instances containing plausible distractors. We benchmark three transformer-based models (BERT, RoBERTa, ELECTRA) and demonstrate substantial improvements through fine-tuning. BERT achieves 313% relative improvement in F1 score (0.150 to 0.620). Semantic answer quality measured by BERTScore also increases significantly across all models. Our results establish NCTB-QA as a challenging benchmark for Bangla educational question answering. This study demonstrates that domain-specific fine-tuning is critical for robust performance in low-resource settings.
Abstract（参考訳）: 低リソース言語に対する理解システムを読むことは、解決不可能な問題を扱う上で大きな課題に直面している。これらのシステムは、正しい回答がコンテキストから欠如している場合、信頼性の低い応答を生成する傾向がある。この問題を解決するために,バングラデシュ国立カリキュラム・教科書委員会が発行する50の教科書から抽出した87,805の質問応答ペアからなる大規模バングラ語質問応答データセットNCTB-QAを導入する。既存のバングラデータセットとは異なり、NCTB-QAは解答可能(57.25%)と解答不能(42.75%)のバランスの取れた分布を維持している。 NCTB-QAには、プラウジブルなディスラプターを含む逆向きの設計のインスタンスも含まれている。我々は,3つの変圧器モデル(BERT,RoBERTa,ELECTRA)をベンチマークし,微調整による大幅な改善を示す。 BERTはF1スコア(0.150から0.620)の313%の相対的な改善を達成した。 BERTScoreが測定したセマンティック回答の品質も、すべてのモデルで大幅に向上した。その結果,NCTB-QA はバングラ語教育質問応答の挑戦的ベンチマークとして確立された。本研究では,低リソース環境において,ドメイン固有の微調整がロバストな性能に重要であることを示す。

関連論文リスト

Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文参考訳（メタデータ） (2025-12-31T13:55:54Z)
AmaSQuAD: A Benchmark for Amharic Extractive Question Answering [0.0]
本研究では,抽出された問合せデータセットを低リソース言語に翻訳するための新しい枠組みを提案する。この方法論は、翻訳された質問と回答のミスアライメントに関連する課題に対処する。我々は、AmaSQuAD合成データセット上でXLM-Rモデルを微調整し、Amharic Question-Answeringを行う。
論文参考訳（メタデータ） (2025-02-04T06:27:39Z)
Unlocking the Potential of Multiple BERT Models for Bangla Question Answering in NCTB Textbooks [0.0]
教育環境におけるテキスト理解の評価は,学生のパフォーマンスの理解とカリキュラムの有効性の向上に不可欠である。本研究では,国立カリキュラム・テキストブックボード(NCTB)の授業6-10用教科書から,Bangla節に基づく質問応答を自動的に評価する,最先端の言語モデルであるRoBERTa Base,Bangla-BERT,BERT Base-inの能力について検討した。
論文参考訳（メタデータ） (2024-12-24T13:59:23Z)
KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文参考訳（メタデータ） (2024-05-13T18:26:32Z)
Japanese-English Sentence Translation Exercises Dataset for Automatic Grading [16.564184260893946]
本稿では,文翻訳演習(STE)の自動評価タスクを提案する。日本語と英語のSTEデータセットを作成し、21の質問と合計3,498人の学生回答(平均167件)を収録する。このデータセットを用いて,テキスト内学習の少ない細調整BERTモデルやGPTモデルを含むベースラインの性能を実演する。
論文参考訳（メタデータ） (2024-03-06T01:37:03Z)
"John is 50 years old, can his son be 65?" Evaluating NLP Models' Understanding of Feasibility [19.47954905054217]
この研究は、アクション(またはその効果)が実現可能かどうかを推論する、単純な常識能力に焦点を当てている。 GPT-3のような最先端モデルでさえ、実現可能性の問題に正しく答えることに苦慮していることを示す。
論文参考訳（メタデータ） (2022-10-14T02:46:06Z)
Answer Generation for Questions With Multiple Information Sources in E-Commerce [4.4378250612684]
本稿では,関連性やあいまいさの予測を別々に行うことで,上記ソースに存在する豊富な情報を利用する新しいパイプライン(MSQAP)を提案する。これは、仕様、類似の質問、データレビューなど、さまざまなソースに存在する情報を組み合わせた自然言語の回答を自動的に生成する、eコマース領域における最初の作業である。
論文参考訳（メタデータ） (2021-11-27T23:19:49Z)
TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文参考訳（メタデータ） (2021-05-17T06:12:06Z)
Overcoming Language Priors with Self-supervised Learning for Visual Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。この問題を解決するための自己監督学習フレームワークを紹介します。我々の手法は最先端の手法を大きく上回ることができる。
論文参考訳（メタデータ） (2020-12-17T12:30:12Z)
Beyond I.I.D.: Three Levels of Generalization for Question Answering on Knowledge Bases [63.43418760818188]
GrailQA.comは64,331の質問で、新しい大規模で高品質なデータセットをリリースしました。 BERTベースのKBQAモデルを提案する。データセットとモデルの組み合わせにより、KBQAの一般化におけるBERTのような事前学習されたコンテキスト埋め込みの重要な役割を、初めて徹底的に検証し、実証することが可能になります。
論文参考訳（メタデータ） (2020-11-16T06:36:26Z)
Logic-Guided Data Augmentation and Regularization for Consistent Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文参考訳（メタデータ） (2020-04-21T17:03:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。