論文の概要: "Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF)
- arxiv url: http://arxiv.org/abs/2412.19755v1
- Date: Fri, 27 Dec 2024 17:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:49.291349
- Title: "Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF)
- Title(参考訳): 「私の姿は正当か?」 : フィードバックによるマルチモーダル・ショート・アンサー・グラディング(MMSAF)を目指して
- Authors: Pritam Sil, Bhaskaran Raman, Pushpak Bhattacharyya,
- Abstract要約: 本研究は, 主観的, オープンな質問に焦点を合わせ, フィードバックを伴うASAG (Automatic Short Answer Grading) の問題に類似している。
本稿では,従来のASAGフィードバック問題に対してMMSAF(Multimodal Short Answer grading with Feedback)問題を導入する。
- 参考スコア(独自算出の注目度): 36.74896284581596
- License:
- Abstract: Personalized feedback plays a vital role in a student's learning process. While existing systems are adept at providing feedback over MCQ-based evaluation, this work focuses more on subjective and open-ended questions, which is similar to the problem of Automatic Short Answer Grading (ASAG) with feedback. Additionally, we introduce the Multimodal Short Answer grading with Feedback (MMSAF) problem over the traditional ASAG feedback problem to address the scenario where the student answer and reference answer might contain images. Moreover, we introduce the MMSAF dataset with 2197 data points along with an automated framework for generating such data sets. Our evaluations on existing LLMs over this dataset achieved an overall accuracy of 55\% on Level of Correctness labels, 75\% on Image Relevance labels and a score of 4.27 out of 5 in correctness level of LLM generated feedback as rated by experts. As per experts, Pixtral achieved a rating of above 4 out of all metrics, indicating that it is more aligned to human judgement, and that it is the best solution for assisting students.
- Abstract(参考訳): 個人化されたフィードバックは、学生の学習過程において重要な役割を果たす。
既存のシステムはMCQに基づく評価よりもフィードバックの提供に長けているが,本研究は主観的,オープンな質問に重点を置いており,これはフィードバックを伴う自動短解法(ASAG)の問題と類似している。
さらに,従来のASAGフィードバック問題に対してMMSAF(Multimodal Short Answer grading with Feedback)問題を導入した。
さらに,2197個のデータポイントを持つMSAFデータセットと,そのようなデータセットを生成する自動フレームワークを導入する。
このデータセットに対する既存LLMの評価は,画像関連ラベルの55倍,画像関連ラベルの75倍,および5点中4.27点の精度で評価され,専門家が評価したフィードバックが得られた。
専門家によると、Pixtralはすべての指標のうち4つ以上の評価を達成しており、それは人間の判断に適合しており、学生を支援する最良のソリューションであることを示している。
関連論文リスト
- Benchmarking large language models for materials synthesis: the case of atomic layer deposition [0.07528462379265576]
材料合成における大規模言語モデル(LLM)の性能を評価するために,オープンな質問ベンチマークであるALDbenchを導入する。
我々のベンチマークは、大学院レベルから分野の最先端のドメインエキスパートまで、難易度の高い質問で構成されています。
論文 参考訳(メタデータ) (2024-12-13T05:10:29Z) - How to Engage Your Readers? Generating Guiding Questions to Promote Active Reading [60.19226384241482]
教科書や科学論文から10Kのインテキスト質問のデータセットであるGuidingQを紹介した。
言語モデルを用いてこのような質問を生成するための様々なアプローチを探索する。
我々は、そのような質問が読解に与える影響を理解するために、人間の研究を行う。
論文 参考訳(メタデータ) (2024-07-19T13:42:56Z) - SyllabusQA: A Course Logistics Question Answering Dataset [45.90423821963144]
我々はSyllabusQAを紹介した。63のリアルコースシラビを持つオープンソースデータセットで、36のメジャーをカバーし、5,078のオープンエンドコース関連質問応答ペアを含む。
我々は,大規模言語モデルから検索拡張生成まで,このタスクのいくつかの強力なベースラインをベンチマークする。
従来のテキスト類似性の指標で人間に近づいたとしても、事実の正確さという点では、自動化アプローチと人間の間には大きなギャップが残っていることが分かっています。
論文 参考訳(メタデータ) (2024-03-03T03:01:14Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - Covering Uncommon Ground: Gap-Focused Question Generation for Answer
Assessment [75.59538732476346]
このようなギャップに着目した質問(GFQ)を自動生成する問題に着目する。
タスクを定義し、優れたGFQの所望の側面を強調し、これらを満たすモデルを提案する。
論文 参考訳(メタデータ) (2023-07-06T22:21:42Z) - Discourse Comprehension: A Question Answering Framework to Represent
Sentence Connections [35.005593397252746]
談話理解のためのモデルの構築と評価における重要な課題は、注釈付きデータの欠如である。
本稿では,ニュース文書の理解を目的としたスケーラブルなデータ収集を実現する新しいパラダイムを提案する。
得られたコーパスDCQAは、607の英語文書からなる22,430の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2021-11-01T04:50:26Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - R2DE: a NLP approach to estimating IRT parameters of newly generated
questions [3.364554138758565]
R2DEは、質問のテキストを見て、新しく生成された複数の選択の質問を評価することができるモデルである。
特に、各質問の難易度と識別度を推定することができる。
論文 参考訳(メタデータ) (2020-01-21T14:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。