論文の概要: Unlocking the Potential of Multiple BERT Models for Bangla Question Answering in NCTB Textbooks
- arxiv url: http://arxiv.org/abs/2412.18440v1
- Date: Tue, 24 Dec 2024 13:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:32.036177
- Title: Unlocking the Potential of Multiple BERT Models for Bangla Question Answering in NCTB Textbooks
- Title(参考訳): NCTB教科書におけるBangla質問応答に対する複数のBERTモデルの可能性
- Authors: Abdullah Khondoker, Enam Ahmed Taufik, Md Iftekhar Islam Tashik, S M Ishtiak mahmud, Antara Firoz Parsa,
- Abstract要約: 教育環境におけるテキスト理解の評価は,学生のパフォーマンスの理解とカリキュラムの有効性の向上に不可欠である。
本研究では,国立カリキュラム・テキストブックボード(NCTB)の授業6-10用教科書から,Bangla節に基づく質問応答を自動的に評価する,最先端の言語モデルであるRoBERTa Base,Bangla-BERT,BERT Base-inの能力について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Evaluating text comprehension in educational settings is critical for understanding student performance and improving curricular effectiveness. This study investigates the capability of state-of-the-art language models-RoBERTa Base, Bangla-BERT, and BERT Base-in automatically assessing Bangla passage-based question-answering from the National Curriculum and Textbook Board (NCTB) textbooks for classes 6-10. A dataset of approximately 3,000 Bangla passage-based question-answering instances was compiled, and the models were evaluated using F1 Score and Exact Match (EM) metrics across various hyperparameter configurations. Our findings revealed that Bangla-BERT consistently outperformed the other models, achieving the highest F1 (0.75) and EM (0.53) scores, particularly with smaller batch sizes, the inclusion of stop words, and a moderate learning rate. In contrast, RoBERTa Base demonstrated the weakest performance, with the lowest F1 (0.19) and EM (0.27) scores under certain configurations. The results underscore the importance of fine-tuning hyperparameters for optimizing model performance and highlight the potential of machine learning models in evaluating text comprehension in educational contexts. However, limitations such as dataset size, spelling inconsistencies, and computational constraints emphasize the need for further research to enhance the robustness and applicability of these models. This study lays the groundwork for the future development of automated evaluation systems in educational institutions, providing critical insights into model performance in the context of Bangla text comprehension.
- Abstract(参考訳): 教育環境におけるテキスト理解の評価は,学生のパフォーマンスの理解とカリキュラムの有効性の向上に不可欠である。
本研究では,国立カリキュラム・テキストブックボード(NCTB)の授業6-10用教科書から,Bangla節に基づく質問応答を自動的に評価する,最先端の言語モデルであるRoBERTa Base,Bangla-BERT,BERT Base-inの能力について検討した。
約3,000のBanglaパスに基づく質問応答インスタンスのデータセットをコンパイルし、F1スコアとエクサクタマッチ(EM)メトリクスを用いて、様々なハイパーパラメータ構成を用いてモデルの評価を行った。
以上の結果から,Bangla-BERTはF1(0.75)とEM(0.53)の最高スコア,特にバッチサイズが小さく,停止単語の含み,中等度学習率で,他のモデルよりも一貫して優れていた。
対照的にRoBERTa Baseは、F1 (0.19) とEM (0.27) のスコアが一定の構成で最も弱い性能を示した。
その結果、モデル性能を最適化するための微調整ハイパーパラメータの重要性を強調し、教育的文脈におけるテキスト理解の評価における機械学習モデルの可能性を強調した。
しかし、データセットのサイズ、スペルの不整合、計算上の制約といった制限は、これらのモデルの堅牢性と適用性を高めるためのさらなる研究の必要性を強調している。
本研究は,Banglaテキスト理解の文脈におけるモデル性能に関する重要な洞察を提供する教育機関における自動評価システムの今後の展開の基盤となるものである。
関連論文リスト
- What Differentiates Educational Literature? A Multimodal Fusion Approach of Transformers and Computational Linguistics [0.7342677574855649]
英語カリキュラムへの新しい文学の統合は、様々な教室のニーズに対して、読みやすさとテキストの適応を迅速に評価するスケーラブルなツールがしばしば欠如しているため、依然として課題である。
本研究は,変圧器を用いたテキスト分類と言語的特徴分析を組み合わせたマルチモーダル手法により,このギャップに対処することを提案する。
提案手法は、ステークホルダーが対象とするWebアプリケーションにカプセル化され、非技術ステークホルダーが、テキストの複雑さ、読みやすさ、カリキュラムのアライメント、学習年齢範囲に関するリアルタイムな洞察にアクセスできるようにする。
論文 参考訳(メタデータ) (2024-11-26T17:01:27Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - ILLUMINER: Instruction-tuned Large Language Models as Few-shot Intent Classifier and Slot Filler [1.9015367254988451]
本研究では、インテント分類(IC)とスロットフィリング(SF)のための人気のあるベンチマークデータセット上で、命令調整モデル(インストラクション-LLM)を評価する。
Instruct-LLM の言語生成タスクとして IC と SF をフレーミングする ILLUMINER を導入する。
FLAN-T5 11Bモデルを用いた複数のベースラインとの総合的な比較から,本手法は最先端のジョイントIC+SF法やGPT3.5 (175B) を用いたテキスト内学習よりも優れていた。
論文 参考訳(メタデータ) (2024-03-26T09:41:21Z) - Japanese-English Sentence Translation Exercises Dataset for Automatic
Grading [16.564184260893946]
本稿では,文翻訳演習(STE)の自動評価タスクを提案する。
日本語と英語のSTEデータセットを作成し、21の質問と合計3,498人の学生回答(平均167件)を収録する。
このデータセットを用いて,テキスト内学習の少ない細調整BERTモデルやGPTモデルを含むベースラインの性能を実演する。
論文 参考訳(メタデータ) (2024-03-06T01:37:03Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large
Language Models [39.46610170563634]
INSTRUCTEVALは、命令調整された大規模言語モデルのために特別に設計された、より包括的な評価スイートである。
我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。
その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。
論文 参考訳(メタデータ) (2023-06-07T20:12:29Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Context Matters: A Strategy to Pre-train Language Model for Science
Education [4.053049694533914]
BERTベースの言語モデルは、様々な言語関連タスクにおいて、従来のNLPモデルよりも大きな優位性を示している。
学生が使用する言語は、BERTのトレーニングソースであるジャーナルやウィキペディアの言語とは異なる。
本研究は,教育領域におけるドメイン固有データに対する継続事前学習の有効性を確認した。
論文 参考訳(メタデータ) (2023-01-27T23:50:16Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。