Fugu-MT 論文翻訳(概要): Beyond Scores: A Modular RAG-Based System for Automatic Short Answer Scoring with Feedback

論文の概要: Beyond Scores: A Modular RAG-Based System for Automatic Short Answer Scoring with Feedback

arxiv url: http://arxiv.org/abs/2409.20042v1
Date: Mon, 30 Sep 2024 07:48:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-29 19:24:58.827923
Title: Beyond Scores: A Modular RAG-Based System for Automatic Short Answer Scoring with Feedback
Title（参考訳）: Beyond Scores: フィードバックによるショートアンサーの自動スコーリングのためのモジュールRAGベースシステム
Authors: Menna Fateen, Bo Wang, Tsunenori Mine,
Abstract要約: そこで本研究では,厳密なゼロショットと少数ショットの学習シナリオにおいて,回答のスコアとフィードバックを生成するモジュール型検索拡張生成システムASAS-Fを提案する。その結果, 微調整に比べて解答精度が9%向上し, スケーラブルで費用対効果の高い解が得られた。
参考スコア（独自算出の注目度）: 3.2734777984053887
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic short answer scoring (ASAS) helps reduce the grading burden on educators but often lacks detailed, explainable feedback. Existing methods in ASAS with feedback (ASAS-F) rely on fine-tuning language models with limited datasets, which is resource-intensive and struggles to generalize across contexts. Recent approaches using large language models (LLMs) have focused on scoring without extensive fine-tuning. However, they often rely heavily on prompt engineering and either fail to generate elaborated feedback or do not adequately evaluate it. In this paper, we propose a modular retrieval augmented generation based ASAS-F system that scores answers and generates feedback in strict zero-shot and few-shot learning scenarios. We design our system to be adaptable to various educational tasks without extensive prompt engineering using an automatic prompt generation framework. Results show an improvement in scoring accuracy by 9\% on unseen questions compared to fine-tuning, offering a scalable and cost-effective solution.
Abstract（参考訳）: 自動短解スコアリング(ASAS)は、教育者に対する格付け負担を軽減するのに役立つが、詳細で説明可能なフィードバックを欠いていることが多い。フィードバック付きASAS(ASAS-F)の既存のメソッドは、限られたデータセットを持つ微調整言語モデルに依存しており、リソース集約であり、コンテキストをまたいだ一般化に苦慮している。大規模言語モデル(LLM)を用いた最近のアプローチは、広範囲な微調整を伴わないスコアに重点を置いている。しかし、彼らはしばしば急進的なエンジニアリングに大きく依存し、精巧なフィードバックが得られなかったり、適切に評価しなかったりする。本稿では,厳密なゼロショットおよび少数ショット学習シナリオにおいて,回答を収集し,フィードバックを生成するモジュール型拡張生成システムASAS-Fを提案する。我々は,自動プロンプト生成フレームワークを用いて,広範囲なプロンプトエンジニアリングを行うことなく,様々な教育課題に適応可能なシステムを設計する。その結果、微調整に比べて、評価精度が9倍向上し、スケーラブルで費用対効果の高いソリューションが提供された。

関連論文リスト

SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models [36.10798324093408]
SAS-Benchは、大規模言語モデル(LLM)ベースのショートアンサースコーリングタスクのベンチマークである。詳細な、段階的なスコアリング、専門家による注釈付きエラーカテゴリ、さまざまな質問タイプを提供する。また,1030の質問と4,109人の学生回答を含むオープンソースデータセットも公開しています。
論文参考訳（メタデータ） (2025-05-12T05:43:21Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
Generative Language Models with Retrieval Augmented Generation for Automated Short Answer Scoring [11.537413936317385]
自動短解答(ASAS)は教育評価において重要な要素である。ジェネレーティブ言語モデル(GLM)の最近の進歩は、改善のための新たな機会を提供する。本稿では, ベクトルデータベース, トランスフォーマーベースエンコーダ, GLMを組み合わせ, 短時間応答スコアリング精度を向上させるパイプラインを提案する。
論文参考訳（メタデータ） (2024-08-07T14:42:13Z)
"I understand why I got this grade": Automatic Short Answer Grading with Feedback [36.74896284581596]
本稿では,5.8kの学生回答と参照回答と自動短解答(ASAG)タスクに対する質問のデータセットを提案する。 EngSAFデータセットは、複数のエンジニアリングドメインのさまざまな主題、質問、回答パターンをカバーするために、慎重にキュレートされている。
論文参考訳（メタデータ） (2024-06-30T15:42:18Z)
RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文参考訳（メタデータ） (2024-05-23T11:00:19Z)
Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation [9.390902237835457]
検索型大規模言語モデル(RAG)のタスク固有精度を計測する新しい手法を提案する。複数の選択質問からなる自動生成合成試験において、RAGをスコアリングして評価を行う。
論文参考訳（メタデータ） (2024-05-22T13:14:11Z)
Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-16T18:23:43Z)
Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文参考訳（メタデータ） (2022-05-30T16:26:02Z)
Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文参考訳（メタデータ） (2021-12-10T20:47:58Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文参考訳（メタデータ） (2021-07-23T22:41:28Z)
Get It Scored Using AutoSAS -- An Automated System for Scoring Short Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。 SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。 AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文参考訳（メタデータ） (2020-12-21T10:47:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。