論文の概要: Automated Long Answer Grading with RiceChem Dataset
- arxiv url: http://arxiv.org/abs/2404.14316v1
- Date: Mon, 22 Apr 2024 16:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 13:17:55.202374
- Title: Automated Long Answer Grading with RiceChem Dataset
- Title(参考訳): ライスケムデータセットを用いた長解像の自動解析
- Authors: Shashank Sonkar, Kangqi Ni, Lesa Tran Lu, Kristi Kincaid, John S. Hutchinson, Richard G. Baraniuk,
- Abstract要約: 教育自然言語処理分野における新たな研究分野について紹介する:ALAG(Automated Long Answer Grading)
ALAGは、事実に基づく長い答えの複雑さと多面的な性質のために、ユニークな課題を提示している。
本稿では, 自然言語推論モデルを用いて, ALAG に対する新たなアプローチを提案する。
- 参考スコア(独自算出の注目度): 19.34390869143846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new area of study in the field of educational Natural Language Processing: Automated Long Answer Grading (ALAG). Distinguishing itself from Automated Short Answer Grading (ASAG) and Automated Essay Grading (AEG), ALAG presents unique challenges due to the complexity and multifaceted nature of fact-based long answers. To study ALAG, we introduce RiceChem, a dataset derived from a college chemistry course, featuring real student responses to long-answer questions with an average word count notably higher than typical ASAG datasets. We propose a novel approach to ALAG by formulating it as a rubric entailment problem, employing natural language inference models to verify whether each criterion, represented by a rubric item, is addressed in the student's response. This formulation enables the effective use of MNLI for transfer learning, significantly improving the performance of models on the RiceChem dataset. We demonstrate the importance of rubric-based formulation in ALAG, showcasing its superiority over traditional score-based approaches in capturing the nuances of student responses. We also investigate the performance of models in cold start scenarios, providing valuable insights into the practical deployment considerations in educational settings. Lastly, we benchmark state-of-the-art open-sourced Large Language Models (LLMs) on RiceChem and compare their results to GPT models, highlighting the increased complexity of ALAG compared to ASAG. Despite leveraging the benefits of a rubric-based approach and transfer learning from MNLI, the lower performance of LLMs on RiceChem underscores the significant difficulty posed by the ALAG task. With this work, we offer a fresh perspective on grading long, fact-based answers and introduce a new dataset to stimulate further research in this important area. Code: \url{https://github.com/luffycodes/Automated-Long-Answer-Grading}.
- Abstract(参考訳): 本稿では,ALAG(Automated Long Answer Grading)という教育用自然言語処理分野の新たな分野について紹介する。
ALAGはASAG (Automated Short Answer Grading) とAEG (Automated Essay Grading) から切り離され、事実に基づく長い回答の複雑さと多面的な性質のために、ユニークな課題を提示している。
ALAG を研究するために,大学化学コースから派生したデータセットである RiceChem を紹介した。
そこで本稿では, ALAG に対する新たなアプローチとして, 自然言語推論モデルを用いて, ルーリックな項目で表現された各基準が, 学生の反応に対処されているかどうかを検証し, ルーリックな包含問題として定式化することを提案する。
この定式化により、転送学習にMNLIを効果的に利用することができ、LiceChemデータセットのモデルの性能を大幅に改善する。
ALAGにおけるルーブリックに基づく定式化の重要性を実証し、学生の反応のニュアンスを捉える上で、従来のスコアベースのアプローチよりも優れていることを示す。
また、コールドスタートシナリオにおけるモデルの性能についても検討し、教育環境における実践的なデプロイメントの考察について貴重な洞察を提供する。
最後に,LiceChem上で最先端のオープンソースLarge Language Models (LLMs) をベンチマークし,その結果をGPTモデルと比較し,ASAGと比較してALAGの複雑さが増大していることを強調した。
ルーリックベースのアプローチとMNLIからの移行学習の利点を生かしたにもかかわらず、ライスケムにおけるLCMの低い性能は、ALAGタスクによって引き起こされる重大な難しさを浮き彫りにした。
この研究により、我々は、長い事実に基づく回答をグラデーションする新たな視点を提供し、この重要な領域におけるさらなる研究を促進するために、新しいデータセットを導入します。
コード: \url{https://github.com/luffycodes/Automated-Long-Answer-Grading}。
関連論文リスト
- Marking: Visual Grading with Highlighting Errors and Annotating Missing Bits [23.71250100390303]
マーキング(Marking)は、学生の反応の詳細な分析を行うことにより、自動階調システムを強化する新しい階調タスクである。
本稿では,この課題に特化して,主観的課題エキスパートが慎重にキュレートした新しいデータセットを提案する。
論文 参考訳(メタデータ) (2024-04-22T16:00:46Z) - RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-03-31T08:58:54Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - Unsupervised Information Refinement Training of Large Language Models
for Retrieval-Augmented Generation [133.52393894760107]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question
Answering over a Life Science Knowledge Graph [0.0]
生命科学知識グラフを用いた質問応答のためのOpenLlama LLMの微調整戦略を評価する。
本稿では,既存のクエリのセットを知識グラフ上に拡張するためのエンドツーエンドデータ拡張手法を提案する。
また、意味のある変数名やインラインコメントなど、クエリにおける意味的な"キュー"の役割についても検討する。
論文 参考訳(メタデータ) (2024-02-07T07:24:01Z) - Enhancing Textbook Question Answering Task with Large Language Models
and Retrieval Augmented Generation [3.948068081583197]
本稿では,テキスト質問応答(TQA)における領域外シナリオを扱う手法を提案する。
LLMモデルLlama-2の微調整とRAGの導入により、我々のアーキテクチャはベースラインよりも優れ、検証セットでは4.12%、非ダイアグラム多重選択質問では9.84%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-02-05T11:58:56Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Survey on Automated Short Answer Grading with Deep Learning: from Word
Embeddings to Transformers [5.968260239320591]
教育課題を学生数の増加に拡大する手段として,ASAG (Automated Short answer grading) が教育において注目を集めている。
自然言語処理と機械学習の最近の進歩はASAGの分野に大きな影響を与えた。
論文 参考訳(メタデータ) (2022-03-11T13:47:08Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。