論文の概要: G-SciEdBERT: A Contextualized LLM for Science Assessment Tasks in German
- arxiv url: http://arxiv.org/abs/2402.06584v2
- Date: Fri, 16 Aug 2024 20:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 03:47:26.652586
- Title: G-SciEdBERT: A Contextualized LLM for Science Assessment Tasks in German
- Title(参考訳): G-SciEdBERT:ドイツにおける科学評価のための文脈的LLM
- Authors: Ehsan Latif, Gyeong-Geon Lee, Knut Neumann, Tamara Kastorff, Xiaoming Zhai,
- Abstract要約: 本稿では,ドイツ科学教育協会(G-SciEdBERT)の文脈化について述べる。
G-BERTを用いて,G-SciEdBERTを,国際学生評価プログラム(PISA)2018上で,3Mトークンを用いた30万のドイツ語書記科学応答コーパスで事前訓練した。
我々はG-SciEdBERTを2Mトークンで20Kの学生書き起こしで微調整し,評価精度について検討した。
結果,G-SciEdBERTでは,G-BERTに比べて2次重み付きKappaが10.2%増加した。
- 参考スコア(独自算出の注目度): 0.9532490631672424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of natural language processing has paved the way for automated scoring systems in various languages, such as German (e.g., German BERT [G-BERT]). Automatically scoring written responses to science questions in German is a complex task and challenging for standard G-BERT as they lack contextual knowledge in the science domain and may be unaligned with student writing styles. This paper presents a contextualized German Science Education BERT (G-SciEdBERT), an innovative large language model tailored for scoring German-written responses to science tasks and beyond. Using G-BERT, we pre-trained G-SciEdBERT on a corpus of 30K German written science responses with 3M tokens on the Programme for International Student Assessment (PISA) 2018. We fine-tuned G-SciEdBERT on an additional 20K student-written responses with 2M tokens and examined the scoring accuracy. We then compared its scoring performance with G-BERT. Our findings revealed a substantial improvement in scoring accuracy with G-SciEdBERT, demonstrating a 10.2% increase of quadratic weighted Kappa compared to G-BERT (mean difference = 0.1026, SD = 0.069). These insights underline the significance of specialized language models like G-SciEdBERT, which is trained to enhance the accuracy of contextualized automated scoring, offering a substantial contribution to the field of AI in education.
- Abstract(参考訳): 自然言語処理の進歩は、ドイツ語 (eg , German BERT [G-BERT]) など、様々な言語における自動スコアリングシステムへの道を開いた。
ドイツ語で書かれた質問に対する自動的な回答は複雑な作業であり、科学領域における文脈的知識が欠如しており、学生の書き方と整合していないため、標準のG-BERTでは困難である。
本稿は,ドイツ科学教育の文脈化のための言語モデルであるG-SciEdBERT(G-SciEdBERT)について述べる。
G-BERTを用いて,G-SciEdBERTを,国際学生評価プログラム(PISA)2018上で,3Mトークンを用いた30万のドイツ語書記科学応答コーパスで事前訓練した。
我々はG-SciEdBERTを2Mトークンで20Kの学生書き起こしで微調整し,評価精度について検討した。
そして、スコアパフォーマンスをG-BERTと比較した。
G-SciEdBERTでは,G-BERTに比べて2次重み付きKappaが10.2%増加した(平均差0.1026,SD=0.069)。
これらの洞察は、文脈化された自動スコアリングの精度を高めるために訓練された、G-SciEdBERTのような特殊言語モデルの重要性を浮き彫りにしている。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - Data and Approaches for German Text simplification -- towards an
Accessibility-enhanced Communication [0.0]
本稿では,ドイツ語テキストの簡易化の現状を考察し,並列化と単言語的ドイツ語コーパスに着目した。
ドイツのテキストを単純化するためのニューラルネットワークモデルをレビューし、法的テキストとアクセシビリティ要件に対するそれらの適合性を評価する。
著者らは2023年4月にこれらの研究ギャップに対処するため、学際的なOPEN-LSプロジェクトを立ち上げた。
論文 参考訳(メタデータ) (2023-12-15T17:23:33Z) - EaSyGuide : ESG Issue Identification Framework leveraging Abilities of
Generative Large Language Models [5.388543737855513]
本稿では,多言語環境・社会・コーポレートガバナンス問題識別(ML-ESG)におけるFinNLP-2023共有課題への参加について述べる。
課題は、MSCI ESG評価ガイドラインで定義された35のESGキーイシューに基づいて、ニュース記事の分類を行うことである。
我々のアプローチは、ゼロショットとGPT3Mix拡張技術とともに、CerebrasGPT、OPT、Pythiaモデルを採用した英語とフランス語のサブタスクに焦点を当てている。
論文 参考訳(メタデータ) (2023-06-11T12:25:02Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - Automatic Readability Assessment of German Sentences with Transformer
Ensembles [0.0]
GBERTとGPT-2-Wechselモデルのアンサンブルによるドイツ語文の可読性を確実に予測する能力について検討した。
GBERT と GPT-2-Wechsel の混合アンサンブルは、GBERT と GPT-2-Wechsel のみからなる同じ大きさのアンサンブルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-09-09T13:47:55Z) - LightHuBERT: Lightweight and Configurable Speech Representation Learning
with Once-for-All Hidden-Unit BERT [69.77358429702873]
本稿では,一度限りのTransformer圧縮フレームワークであるLightHuBERTを提案する。
自動音声認識(ASR)とSUPERBベンチマークの実験は、提案されたLightHuBERTが109ドル以上のアーキテクチャを実現することを示している。
LightHuBERTは、ほとんどのタスクにおいて、29%のパラメータを削減して、教師モデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-29T14:20:55Z) - GottBERT: a pure German Language Model [0.0]
ドイツ語の単一言語RoBERTaモデルはまだ公開されておらず、本書で紹介する(GottBERT)。
評価では、名前付きエンティティ認識(NER)タスクのConll 2003 と GermEval 2014 と、GermEval 2018 (微細で粗い) と GNAD のテキスト分類タスクと、既存のドイツの単一言語 BERT モデルと2つの多言語タスクのパフォーマンスを比較した。
GottBERTはRoBERTa BASEアーキテクチャを使って256コアのTPUポッドで事前訓練に成功した。
論文 参考訳(メタデータ) (2020-12-03T17:45:03Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - An Empirical Study of Pre-trained Transformers for Arabic Information
Extraction [25.10651348642055]
我々は、GigaBERTと呼ばれるカスタマイズされたバイリンガルBERTを、アラビア語のNLPと英語からアラビア語へのゼロショットトランスファー学習のために事前訓練する。
GigaBERTによるIEタスク間のゼロショート転送の有効性について検討した。
我々の最良のモデルは、教師付きおよびゼロショット転送設定の両方において、mBERT、XLM-RoBERTa、AraBERTを大きく上回る。
論文 参考訳(メタデータ) (2020-04-30T00:01:08Z) - Extending Multilingual BERT to Low-Resource Languages [71.0976635999159]
M-BERT(M-BERT)は、教師付きおよびゼロショットの言語間移動学習において大きな成功を収めている。
我々は、M-BERTを拡張して、新しい言語に利益をもたらすための、シンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-28T16:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。