論文の概要: "Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF)
- arxiv url: http://arxiv.org/abs/2412.19755v2
- Date: Sat, 15 Feb 2025 21:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:04:53.322939
- Title: "Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF)
- Title(参考訳): 「私の姿は正当か?」 : フィードバックによるマルチモーダル・ショート・アンサー・グラディング(MMSAF)を目指して
- Authors: Pritam Sil, Bhaskaran Raman, Pushpak Bhattacharyya,
- Abstract要約: フィードバック問題を考慮したマルチモーダルショート・アンサー・グラディングと2197データポイントのデータセットを提案する。
このデータセットに対する既存のLarge Language Models (LLMs) の評価は, 精度を55%向上した。
人間の専門家によれば、ピクサールは人間の判断と生物学の価値観、物理学と化学のChatGPTにもっと順応していた。
- 参考スコア(独自算出の注目度): 36.74896284581596
- License:
- Abstract: Assessments play a vital role in a student's learning process by providing feedback on a student's proficiency level in a subject. While assessments often make use of short answer questions, it is often difficult to grade such questions at a large scale. Moreover, such questions often involve students drawing supporting diagrams along with their textual explanations. Such questions often promote multimodal literacy and are aligned with competency-based questions, which demand a deeper cognitive processing ability from students. However, existing literature does not deal with the automatic grading of such answers. Thus, to bridge this gap, we propose the Multimodal Short Answer Grading with Feedback (MMSAF) problem along with a dataset of 2197 data points. Additionally, we provide an automated framework for generating such datasets. Our evaluations on existing Large Language Models (LLMs) over this dataset achieved an overall accuracy of 55% on the Level of Correctness labels and 75% on Image Relevance labels. As per human experts, Pixtral was more aligned towards human judgement and values for biology and ChatGPT for physics and chemistry and achieved a score of 4 or more out of 5 in most parameters.
- Abstract(参考訳): 評価は,学生の習熟度にフィードバックを提供することによって,学生の学習過程において重要な役割を担っている。
評価は短い回答の質問を利用することが多いが、そのような質問を大規模に評価することはしばしば困難である。
さらに、このような質問は、学生が文章の説明とともに支援図を描いている場合が多い。
このような質問はしばしばマルチモーダルリテラシーを促進し、学生から深い認知処理能力を要求する能力に基づく質問に一致している。
しかし、既存の文献ではそのような回答の自動階調には対応していない。
そこで本研究では,このギャップを埋めるために,MMSAF(Multimodal Short Answer Grading with Feedback)問題と2197データポイントのデータセットを提案する。
さらに、このようなデータセットを生成するための自動化フレームワークも提供します。
このデータセットに対する既存のLarge Language Models (LLMs) の評価は, 精度が55%, 画像関連ラベルが75%であった。
人間の専門家によれば、ピクサールは人間の判断や生物学の価値観、物理学や化学のChatGPTに順応し、ほとんどのパラメータにおいて5点中4点以上のスコアを得た。
関連論文リスト
- Benchmarking large language models for materials synthesis: the case of atomic layer deposition [0.07528462379265576]
材料合成における大規模言語モデル(LLM)の性能を評価するために,オープンな質問ベンチマークであるALDbenchを導入する。
我々のベンチマークは、大学院レベルから分野の最先端のドメインエキスパートまで、難易度の高い質問で構成されています。
論文 参考訳(メタデータ) (2024-12-13T05:10:29Z) - How to Engage Your Readers? Generating Guiding Questions to Promote Active Reading [60.19226384241482]
教科書や科学論文から10Kのインテキスト質問のデータセットであるGuidingQを紹介した。
言語モデルを用いてこのような質問を生成するための様々なアプローチを探索する。
我々は、そのような質問が読解に与える影響を理解するために、人間の研究を行う。
論文 参考訳(メタデータ) (2024-07-19T13:42:56Z) - SyllabusQA: A Course Logistics Question Answering Dataset [45.90423821963144]
我々はSyllabusQAを紹介した。63のリアルコースシラビを持つオープンソースデータセットで、36のメジャーをカバーし、5,078のオープンエンドコース関連質問応答ペアを含む。
我々は,大規模言語モデルから検索拡張生成まで,このタスクのいくつかの強力なベースラインをベンチマークする。
従来のテキスト類似性の指標で人間に近づいたとしても、事実の正確さという点では、自動化アプローチと人間の間には大きなギャップが残っていることが分かっています。
論文 参考訳(メタデータ) (2024-03-03T03:01:14Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - Covering Uncommon Ground: Gap-Focused Question Generation for Answer
Assessment [75.59538732476346]
このようなギャップに着目した質問(GFQ)を自動生成する問題に着目する。
タスクを定義し、優れたGFQの所望の側面を強調し、これらを満たすモデルを提案する。
論文 参考訳(メタデータ) (2023-07-06T22:21:42Z) - Discourse Comprehension: A Question Answering Framework to Represent
Sentence Connections [35.005593397252746]
談話理解のためのモデルの構築と評価における重要な課題は、注釈付きデータの欠如である。
本稿では,ニュース文書の理解を目的としたスケーラブルなデータ収集を実現する新しいパラダイムを提案する。
得られたコーパスDCQAは、607の英語文書からなる22,430の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2021-11-01T04:50:26Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - R2DE: a NLP approach to estimating IRT parameters of newly generated
questions [3.364554138758565]
R2DEは、質問のテキストを見て、新しく生成された複数の選択の質問を評価することができるモデルである。
特に、各質問の難易度と識別度を推定することができる。
論文 参考訳(メタデータ) (2020-01-21T14:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。