論文の概要: "Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF)
- arxiv url: http://arxiv.org/abs/2412.19755v2
- Date: Sat, 15 Feb 2025 21:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:04:53.322939
- Title: "Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF)
- Title(参考訳): 「私の姿は正当か?」 : フィードバックによるマルチモーダル・ショート・アンサー・グラディング(MMSAF)を目指して
- Authors: Pritam Sil, Bhaskaran Raman, Pushpak Bhattacharyya,
- Abstract要約: フィードバック問題を考慮したマルチモーダルショート・アンサー・グラディングと2197データポイントのデータセットを提案する。
このデータセットに対する既存のLarge Language Models (LLMs) の評価は, 精度を55%向上した。
人間の専門家によれば、ピクサールは人間の判断と生物学の価値観、物理学と化学のChatGPTにもっと順応していた。
- 参考スコア(独自算出の注目度): 36.74896284581596
- License:
- Abstract: Assessments play a vital role in a student's learning process by providing feedback on a student's proficiency level in a subject. While assessments often make use of short answer questions, it is often difficult to grade such questions at a large scale. Moreover, such questions often involve students drawing supporting diagrams along with their textual explanations. Such questions often promote multimodal literacy and are aligned with competency-based questions, which demand a deeper cognitive processing ability from students. However, existing literature does not deal with the automatic grading of such answers. Thus, to bridge this gap, we propose the Multimodal Short Answer Grading with Feedback (MMSAF) problem along with a dataset of 2197 data points. Additionally, we provide an automated framework for generating such datasets. Our evaluations on existing Large Language Models (LLMs) over this dataset achieved an overall accuracy of 55% on the Level of Correctness labels and 75% on Image Relevance labels. As per human experts, Pixtral was more aligned towards human judgement and values for biology and ChatGPT for physics and chemistry and achieved a score of 4 or more out of 5 in most parameters.
- Abstract(参考訳): 評価は,学生の習熟度にフィードバックを提供することによって,学生の学習過程において重要な役割を担っている。
評価は短い回答の質問を利用することが多いが、そのような質問を大規模に評価することはしばしば困難である。
さらに、このような質問は、学生が文章の説明とともに支援図を描いている場合が多い。
このような質問はしばしばマルチモーダルリテラシーを促進し、学生から深い認知処理能力を要求する能力に基づく質問に一致している。
しかし、既存の文献ではそのような回答の自動階調には対応していない。
そこで本研究では,このギャップを埋めるために,MMSAF(Multimodal Short Answer Grading with Feedback)問題と2197データポイントのデータセットを提案する。
さらに、このようなデータセットを生成するための自動化フレームワークも提供します。
このデータセットに対する既存のLarge Language Models (LLMs) の評価は, 精度が55%, 画像関連ラベルが75%であった。
人間の専門家によれば、ピクサールは人間の判断や生物学の価値観、物理学や化学のChatGPTに順応し、ほとんどのパラメータにおいて5点中4点以上のスコアを得た。
関連論文リスト
- Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation [0.4857223913212445]
自動質問生成システムによって生成される質問に対する評価プロセスを自動化する新しいシステムMIRRORを提案する。
その結果,MIRRORと呼ばれるフィードバックに基づく手法を用いることで,人間の評価指標,すなわち妥当性,適切性,新規性,複雑性,文法性のスコアが向上した。
論文 参考訳(メタデータ) (2024-10-16T12:24:42Z) - AHP-Powered LLM Reasoning for Multi-Criteria Evaluation of Open-Ended Responses [26.850344968677582]
本研究では,大規模言語モデルを用いたオープンエンド質問に対する回答評価手法を提案する。
また,ChatGPT-3.5-turbo と GPT-4 の2つのデータセットについて実験を行った。
以上の結果から,本研究のアプローチは4つの基準線よりも人間の判断と密接に一致していることが示唆された。
論文 参考訳(メタデータ) (2024-10-02T05:22:07Z) - Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation [19.312330150540912]
新たなアプリケーションは、Large Language Models(LLMs)を使用して、検索強化世代(RAG)機能を強化している。
FRAMESは,LLMが現実的な応答を提供する能力をテストするために設計された高品質な評価データセットである。
本稿では,最先端のLLMでもこの課題に対処し,0.40の精度で検索を行なわないことを示す。
論文 参考訳(メタデータ) (2024-09-19T17:52:07Z) - Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - Rethinking Generative Large Language Model Evaluation for Semantic
Comprehension [27.21438605541497]
本稿では,複数の選択質問応答(MCQA)の評価方法について再検討する。
RWQ-Elo レーティングシステムを導入し,24大言語モデル (LLM) を2プレイヤーの競争形式で動作させ,GPT-4 を審査員とする。
このシステムは実世界の利用を反映するように設計されており、そのためにRWQ(Real-world Question')と呼ばれる新しいベンチマークをコンパイルした。
我々の分析は、我々のRWQ-Eloシステムの安定性、新しいモデル登録の可能性、そしてその可能性を明らかにする。
論文 参考訳(メタデータ) (2024-03-12T17:59:48Z) - Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Few-shot Question Generation for Personalized Feedback in Intelligent
Tutoring Systems [22.167776818471026]
パーソナライズされた修正フィードバックシステムは、生成質問応答システムを改善する可能性があることを示す。
実対話型ITSでは,生徒の学習能力が45%,23%向上した。
論文 参考訳(メタデータ) (2022-06-08T22:59:23Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。