論文の概要: "Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF)
- arxiv url: http://arxiv.org/abs/2412.19755v3
- Date: Wed, 21 May 2025 02:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:57.298245
- Title: "Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF)
- Title(参考訳): 「私の姿は正当か?」 : フィードバックによるマルチモーダル・ショート・アンサー・グラディング(MMSAF)を目指して
- Authors: Pritam Sil, Pushpak Bhattacharyya,
- Abstract要約: 本稿では、フィードバック(MMSAF)問題と2,197個のデータポイントを併用したマルチモーダルショートアンサーグレーディングを提案する。
評価の結果,既存のMLLM(Multimodal Large Language Models)では,解答が正解か正解かを55%の精度で予測することができた。
同様に、学生の回答に提供される画像が75%の精度で関連しているか否かを予測することができる。
- 参考スコア(独自算出の注目度): 41.09752906121257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessments play a vital role in a student's learning process. This is because they provide valuable feedback crucial to a student's growth. Such assessments contain questions with open-ended responses, which are difficult to grade at scale. These responses often require students to express their understanding through textual and visual elements together as a unit. In order to develop scalable assessment tools for such questions, one needs multimodal LLMs having strong comparative reasoning capabilities across multiple modalities. Thus, to facilitate research in this area, we propose the Multimodal Short Answer grading with Feedback (MMSAF) problem along with a dataset of 2,197 data points. Additionally, we provide an automated framework for generating such datasets. As per our evaluations, existing Multimodal Large Language Models (MLLMs) could predict whether an answer is correct, incorrect or partially correct with an accuracy of 55%. Similarly, they could predict whether the image provided in the student's answer is relevant or not with an accuracy of 75%. As per human experts, Pixtral was more aligned towards human judgement and values for biology and ChatGPT for physics and chemistry and achieved a score of 4 or more out of 5 in most parameters.
- Abstract(参考訳): 評価は学生の学習過程において重要な役割を果たす。
これは、学生の成長に不可欠な貴重なフィードバックを提供するためです。
このような評価には、大規模な評価が難しいオープンエンド応答の質問が含まれる。
これらの反応は、学生がテキスト要素と視覚要素を1つにまとめて理解することを要求することが多い。
このような問題に対するスケーラブルなアセスメントツールを開発するには、複数のモードにまたがる強力な比較推論能力を持つマルチモーダルLLMが必要である。
そこで本研究では,フィードバックを用いたマルチモーダルショートアンサーグレーディング(MMSAF)と2,197個のデータポイントのデータセットを提案する。
さらに、このようなデータセットを生成するための自動化フレームワークも提供します。
評価の結果,既存のMLLM(Multimodal Large Language Models)では,解答が正解か正解かを55%の精度で予測することができた。
同様に、学生の回答に提供される画像が75%の精度で関連しているか否かを予測することができる。
人間の専門家によれば、ピクサールは人間の判断や生物学の価値観、物理学や化学のChatGPTに順応し、ほとんどのパラメータにおいて5点中4点以上のスコアを得た。
関連論文リスト
- Benchmarking large language models for materials synthesis: the case of atomic layer deposition [0.07528462379265576]
材料合成における大規模言語モデル(LLM)の性能を評価するために,オープンな質問ベンチマークであるALDbenchを導入する。
我々のベンチマークは、大学院レベルから分野の最先端のドメインエキスパートまで、難易度の高い質問で構成されています。
論文 参考訳(メタデータ) (2024-12-13T05:10:29Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation [0.4857223913212445]
自動質問生成システムによって生成される質問に対する評価プロセスを自動化する新しいシステムMIRRORを提案する。
その結果,MIRRORと呼ばれるフィードバックに基づく手法を用いることで,人間の評価指標,すなわち妥当性,適切性,新規性,複雑性,文法性のスコアが向上した。
論文 参考訳(メタデータ) (2024-10-16T12:24:42Z) - AHP-Powered LLM Reasoning for Multi-Criteria Evaluation of Open-Ended Responses [26.850344968677582]
本研究では,大規模言語モデルを用いたオープンエンド質問に対する回答評価手法を提案する。
また,ChatGPT-3.5-turbo と GPT-4 の2つのデータセットについて実験を行った。
以上の結果から,本研究のアプローチは4つの基準線よりも人間の判断と密接に一致していることが示唆された。
論文 参考訳(メタデータ) (2024-10-02T05:22:07Z) - Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation [19.312330150540912]
新たなアプリケーションは、Large Language Models(LLMs)を使用して、検索強化世代(RAG)機能を強化している。
FRAMESは,LLMが現実的な応答を提供する能力をテストするために設計された高品質な評価データセットである。
本稿では,最先端のLLMでもこの課題に対処し,0.40の精度で検索を行なわないことを示す。
論文 参考訳(メタデータ) (2024-09-19T17:52:07Z) - How to Engage Your Readers? Generating Guiding Questions to Promote Active Reading [60.19226384241482]
教科書や科学論文から10Kのインテキスト質問のデータセットであるGuidingQを紹介した。
言語モデルを用いてこのような質問を生成するための様々なアプローチを探索する。
我々は、そのような質問が読解に与える影響を理解するために、人間の研究を行う。
論文 参考訳(メタデータ) (2024-07-19T13:42:56Z) - Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - Rethinking Generative Large Language Model Evaluation for Semantic
Comprehension [27.21438605541497]
本稿では,複数の選択質問応答(MCQA)の評価方法について再検討する。
RWQ-Elo レーティングシステムを導入し,24大言語モデル (LLM) を2プレイヤーの競争形式で動作させ,GPT-4 を審査員とする。
このシステムは実世界の利用を反映するように設計されており、そのためにRWQ(Real-world Question')と呼ばれる新しいベンチマークをコンパイルした。
我々の分析は、我々のRWQ-Eloシステムの安定性、新しいモデル登録の可能性、そしてその可能性を明らかにする。
論文 参考訳(メタデータ) (2024-03-12T17:59:48Z) - SyllabusQA: A Course Logistics Question Answering Dataset [45.90423821963144]
我々はSyllabusQAを紹介した。63のリアルコースシラビを持つオープンソースデータセットで、36のメジャーをカバーし、5,078のオープンエンドコース関連質問応答ペアを含む。
我々は,大規模言語モデルから検索拡張生成まで,このタスクのいくつかの強力なベースラインをベンチマークする。
従来のテキスト類似性の指標で人間に近づいたとしても、事実の正確さという点では、自動化アプローチと人間の間には大きなギャップが残っていることが分かっています。
論文 参考訳(メタデータ) (2024-03-03T03:01:14Z) - Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - Covering Uncommon Ground: Gap-Focused Question Generation for Answer
Assessment [75.59538732476346]
このようなギャップに着目した質問(GFQ)を自動生成する問題に着目する。
タスクを定義し、優れたGFQの所望の側面を強調し、これらを満たすモデルを提案する。
論文 参考訳(メタデータ) (2023-07-06T22:21:42Z) - Few-shot Question Generation for Personalized Feedback in Intelligent
Tutoring Systems [22.167776818471026]
パーソナライズされた修正フィードバックシステムは、生成質問応答システムを改善する可能性があることを示す。
実対話型ITSでは,生徒の学習能力が45%,23%向上した。
論文 参考訳(メタデータ) (2022-06-08T22:59:23Z) - Discourse Comprehension: A Question Answering Framework to Represent
Sentence Connections [35.005593397252746]
談話理解のためのモデルの構築と評価における重要な課題は、注釈付きデータの欠如である。
本稿では,ニュース文書の理解を目的としたスケーラブルなデータ収集を実現する新しいパラダイムを提案する。
得られたコーパスDCQAは、607の英語文書からなる22,430の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2021-11-01T04:50:26Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - R2DE: a NLP approach to estimating IRT parameters of newly generated
questions [3.364554138758565]
R2DEは、質問のテキストを見て、新しく生成された複数の選択の質問を評価することができるモデルである。
特に、各質問の難易度と識別度を推定することができる。
論文 参考訳(メタデータ) (2020-01-21T14:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。