論文の概要: Automated Long Answer Grading with RiceChem Dataset
- arxiv url: http://arxiv.org/abs/2404.14316v1
- Date: Mon, 22 Apr 2024 16:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 13:17:55.202374
- Title: Automated Long Answer Grading with RiceChem Dataset
- Title(参考訳): ライスケムデータセットを用いた長解像の自動解析
- Authors: Shashank Sonkar, Kangqi Ni, Lesa Tran Lu, Kristi Kincaid, John S. Hutchinson, Richard G. Baraniuk,
- Abstract要約: 教育自然言語処理分野における新たな研究分野について紹介する:ALAG(Automated Long Answer Grading)
ALAGは、事実に基づく長い答えの複雑さと多面的な性質のために、ユニークな課題を提示している。
本稿では, 自然言語推論モデルを用いて, ALAG に対する新たなアプローチを提案する。
- 参考スコア(独自算出の注目度): 19.34390869143846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new area of study in the field of educational Natural Language Processing: Automated Long Answer Grading (ALAG). Distinguishing itself from Automated Short Answer Grading (ASAG) and Automated Essay Grading (AEG), ALAG presents unique challenges due to the complexity and multifaceted nature of fact-based long answers. To study ALAG, we introduce RiceChem, a dataset derived from a college chemistry course, featuring real student responses to long-answer questions with an average word count notably higher than typical ASAG datasets. We propose a novel approach to ALAG by formulating it as a rubric entailment problem, employing natural language inference models to verify whether each criterion, represented by a rubric item, is addressed in the student's response. This formulation enables the effective use of MNLI for transfer learning, significantly improving the performance of models on the RiceChem dataset. We demonstrate the importance of rubric-based formulation in ALAG, showcasing its superiority over traditional score-based approaches in capturing the nuances of student responses. We also investigate the performance of models in cold start scenarios, providing valuable insights into the practical deployment considerations in educational settings. Lastly, we benchmark state-of-the-art open-sourced Large Language Models (LLMs) on RiceChem and compare their results to GPT models, highlighting the increased complexity of ALAG compared to ASAG. Despite leveraging the benefits of a rubric-based approach and transfer learning from MNLI, the lower performance of LLMs on RiceChem underscores the significant difficulty posed by the ALAG task. With this work, we offer a fresh perspective on grading long, fact-based answers and introduce a new dataset to stimulate further research in this important area. Code: \url{https://github.com/luffycodes/Automated-Long-Answer-Grading}.
- Abstract(参考訳): 本稿では,ALAG(Automated Long Answer Grading)という教育用自然言語処理分野の新たな分野について紹介する。
ALAGはASAG (Automated Short Answer Grading) とAEG (Automated Essay Grading) から切り離され、事実に基づく長い回答の複雑さと多面的な性質のために、ユニークな課題を提示している。
ALAG を研究するために,大学化学コースから派生したデータセットである RiceChem を紹介した。
そこで本稿では, ALAG に対する新たなアプローチとして, 自然言語推論モデルを用いて, ルーリックな項目で表現された各基準が, 学生の反応に対処されているかどうかを検証し, ルーリックな包含問題として定式化することを提案する。
この定式化により、転送学習にMNLIを効果的に利用することができ、LiceChemデータセットのモデルの性能を大幅に改善する。
ALAGにおけるルーブリックに基づく定式化の重要性を実証し、学生の反応のニュアンスを捉える上で、従来のスコアベースのアプローチよりも優れていることを示す。
また、コールドスタートシナリオにおけるモデルの性能についても検討し、教育環境における実践的なデプロイメントの考察について貴重な洞察を提供する。
最後に,LiceChem上で最先端のオープンソースLarge Language Models (LLMs) をベンチマークし,その結果をGPTモデルと比較し,ASAGと比較してALAGの複雑さが増大していることを強調した。
ルーリックベースのアプローチとMNLIからの移行学習の利点を生かしたにもかかわらず、ライスケムにおけるLCMの低い性能は、ALAGタスクによって引き起こされる重大な難しさを浮き彫りにした。
この研究により、我々は、長い事実に基づく回答をグラデーションする新たな視点を提供し、この重要な領域におけるさらなる研究を促進するために、新しいデータセットを導入します。
コード: \url{https://github.com/luffycodes/Automated-Long-Answer-Grading}。
関連論文リスト
- Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization [31.722907135361492]
学習分析(LA)の文脈において、学習者の反応をより深く把握するための強力なツールとして、オープン・エンド・ショート・アンサー・質問(SAG)が広く認識されている。
SAGは、高グレードの作業負荷と一貫性のない評価に関する懸念のために、実際に課題を提示することが多い。
本稿では,大規模言語モデル(LLM)をSAGのグレーダとして活用する統合型マルチエージェントASAGフレームワークであるGradeOptを提案する。
論文 参考訳(メタデータ) (2024-10-03T03:11:24Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - "I understand why I got this grade": Automatic Short Answer Grading with Feedback [36.74896284581596]
本稿では,5.8kの学生回答と参照回答と自動短解答(ASAG)タスクに対する質問のデータセットを提案する。
EngSAFデータセットは、複数のエンジニアリングドメインのさまざまな主題、質問、回答パターンをカバーするために、慎重にキュレートされている。
論文 参考訳(メタデータ) (2024-06-30T15:42:18Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation [9.390902237835457]
検索型大規模言語モデル(RAG)のタスク固有精度を計測する新しい手法を提案する。
複数の選択質問からなる自動生成合成試験において、RAGをスコアリングして評価を行う。
論文 参考訳(メタデータ) (2024-05-22T13:14:11Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question
Answering over a Life Science Knowledge Graph [0.0]
生命科学知識グラフを用いた質問応答のためのOpenLlama LLMの微調整戦略を評価する。
本稿では,既存のクエリのセットを知識グラフ上に拡張するためのエンドツーエンドデータ拡張手法を提案する。
また、意味のある変数名やインラインコメントなど、クエリにおける意味的な"キュー"の役割についても検討する。
論文 参考訳(メタデータ) (2024-02-07T07:24:01Z) - Enhancing Textbook Question Answering Task with Large Language Models
and Retrieval Augmented Generation [3.948068081583197]
本稿では,テキスト質問応答(TQA)における領域外シナリオを扱う手法を提案する。
LLMモデルLlama-2の微調整とRAGの導入により、我々のアーキテクチャはベースラインよりも優れ、検証セットでは4.12%、非ダイアグラム多重選択質問では9.84%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-02-05T11:58:56Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。