論文の概要: Fine-Tuning BERT for Domain-Specific Question Answering: Toward Educational NLP Resources at University Scale
- arxiv url: http://arxiv.org/abs/2512.05179v1
- Date: Thu, 04 Dec 2025 18:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.775678
- Title: Fine-Tuning BERT for Domain-Specific Question Answering: Toward Educational NLP Resources at University Scale
- Title(参考訳): ドメイン特化質問応答のための細調整BERT--大学における教育的NLPリソースを目指して-
- Authors: Aurélie Montfrond,
- Abstract要約: リメリック大学の電子計算機工学科は、学生にコース情報を提供するロボットを開発した。
SQuAD形式での1,203の質問応答対のカスタムデータセットは、手動および合成的に生成されたエントリを補足した、大学のモジュールの本を用いて構築された。
その結果,微調整さえも仮説フレーミングや知識抽出を改善することがわかった。
学術的なペアによる微調整BERTが効果的な結果をもたらすことを示すことで,このギャップに対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work on scientific question answering has largely emphasized chatbot-style systems, with limited exploration of fine-tuning foundation models for domain-specific reasoning. In this study, we developed a chatbot for the University of Limerick's Department of Electronic and Computer Engineering to provide course information to students. A custom dataset of 1,203 question-answer pairs in SQuAD format was constructed using the university book of modules, supplemented with manually and synthetically generated entries. We fine-tuned BERT (Devlin et al., 2019) using PyTorch and evaluated performance with Exact Match and F1 scores. Results show that even modest fine-tuning improves hypothesis framing and knowledge extraction, demonstrating the feasibility of adapting foundation models to educational domains. While domain-specific BERT variants such as BioBERT and SciBERT exist for biomedical and scientific literature, no foundation model has yet been tailored to university course materials. Our work addresses this gap by showing that fine-tuning BERT with academic QA pairs yields effective results, highlighting the potential to scale towards the first domain-specific QA model for universities and enabling autonomous educational knowledge systems.
- Abstract(参考訳): 科学的な質問応答に関する先行研究は、チャットボットスタイルのシステムに重点を置いており、ドメイン固有の推論のための微調整基礎モデルを限定的に探究している。
本研究では,リメリック大学電子計算機工学科の授業情報を提供するチャットボットを開発した。
SQuAD形式での1,203の質問応答対のカスタムデータセットは、手動および合成的に生成されたエントリを補足した、大学のモジュールの本を用いて構築された。
PyTorchを用いてBERT(Devlin et al , 2019)を微調整し,Exact MatchとF1スコアを用いて評価した。
その結果、微調整さえも仮説フレーミングと知識抽出を改善し、基礎モデルを教育領域に適用する可能性を示している。
BioBERT(英語版)やSciBERT(英語版)のようなドメイン固有のBERT変異体は、生物医学および科学文献のために存在するが、基礎モデルはまだ大学コースの教材に適合していない。
本研究は,学術的なQAペアを用いた微調整BERTが,大学における最初のドメイン固有のQAモデルにスケールする可能性を示し,自律的な教育知識システムを実現することにより,このギャップに対処する。
関連論文リスト
- An Open-Source Dual-Loss Embedding Model for Semantic Retrieval in Higher Education [0.30723404270319693]
本研究では,2つのオープンソースの埋め込みモデルについて,質問応答の微調整を行った。
手動キュレーションと大規模言語モデル(LLM)を併用して,3,197の文対の合成データセットを構築した。
1)MNRL(MultipleNegativesRankingLoss)を用いて微調整されたベースラインモデルと,2)MNRLとCosineSimilarityLossを併用して意味的ランク付けと類似度校正の両方を改善するデュアルロスモデル,の2つのトレーニング戦略が評価された。
論文 参考訳(メタデータ) (2025-05-08T03:14:14Z) - Efficient Learning Content Retrieval with Knowledge Injection [0.0]
そこで本研究では,学習者の学習コンテンツ提供を支援するために,Phi言語モデルのバージョンを利用して,限られたリソースを必要とするドメイン固有アプリケーションを提案する。
微調整に必要なデータはHuaweiタレントプラットフォームから取得した。
RAGシステムは500対のQ&Aペアによって微調整されたモデルをサポートするために使用された。
論文 参考訳(メタデータ) (2024-11-28T12:06:14Z) - Question-Answering (QA) Model for a Personalized Learning Assistant for Arabic Language [4.79071544824946]
本稿では,アラビア語用にカスタマイズされたBERTトランスフォーマーを用いたパーソナライズされた学習アシスタントのための質問応答モデルの作成,最適化,評価について述べる。
私たちのアプローチでは、理科教育の分野における質問に対する正しい回答を自動的に生成するためにBERTの素晴らしい能力を使用します。
このモデルは、パレスチナのカリキュラムで11年生と12年生の生物学の本を用いて微調整することで、関連する情報を理解し、抽出する能力を向上させる。
論文 参考訳(メタデータ) (2024-06-11T20:23:31Z) - Language Models as Science Tutors [79.73256703631492]
本研究では,LMの現実的なユーザビリティを科学的アシスタントとして測定するTutorEvalとTutorChatを紹介する。
既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。
我々はTutorChatを用いて、7Bパラメータと34Bパラメータを持つLlemmaモデルを微調整する。これらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalで優れている。
論文 参考訳(メタデータ) (2024-02-16T22:24:13Z) - Towards Efficient Methods in Medical Question Answering using Knowledge Graph Embeddings [3.944219308229571]
自然言語処理(NLP)では、機械読解(MRC)は与えられた文脈に基づいて質問に答えるタスクである。
医療領域における質問に対処するために、BioBERT、SciBERT、ChatGPTといった現代言語モデルは、膨大なドメイン内医療コーパスで訓練されている。
本稿では、そのようなドメイン固有の事前学習に頼ることなく、モデルにドメイン知識を注入するためのリソース効率のよいアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-15T21:43:46Z) - Context Matters: A Strategy to Pre-train Language Model for Science
Education [4.053049694533914]
BERTベースの言語モデルは、様々な言語関連タスクにおいて、従来のNLPモデルよりも大きな優位性を示している。
学生が使用する言語は、BERTのトレーニングソースであるジャーナルやウィキペディアの言語とは異なる。
本研究は,教育領域におけるドメイン固有データに対する継続事前学習の有効性を確認した。
論文 参考訳(メタデータ) (2023-01-27T23:50:16Z) - Sparse*BERT: Sparse Models Generalize To New tasks and Domains [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。
Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文 参考訳(メタデータ) (2022-05-25T02:51:12Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。