Fugu-MT 論文翻訳(概要): "Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF)

論文の概要: "Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF)

arxiv url: http://arxiv.org/abs/2412.19755v2
Date: Sat, 15 Feb 2025 21:52:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 16:13:23.296603
Title: "Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF)
Title（参考訳）: 「私の姿は正当か?」 : フィードバックによるマルチモーダル・ショート・アンサー・グラディング(MMSAF)を目指して
Authors: Pritam Sil, Bhaskaran Raman, Pushpak Bhattacharyya,
Abstract要約: フィードバック問題を考慮したマルチモーダルショート・アンサー・グラディングと2197データポイントのデータセットを提案する。このデータセットに対する既存のLarge Language Models (LLMs) の評価は, 精度を55%向上した。人間の専門家によれば、ピクサールは人間の判断と生物学の価値観、物理学と化学のChatGPTにもっと順応していた。
参考スコア（独自算出の注目度）: 36.74896284581596
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Assessments play a vital role in a student's learning process by providing feedback on a student's proficiency level in a subject. While assessments often make use of short answer questions, it is often difficult to grade such questions at a large scale. Moreover, such questions often involve students drawing supporting diagrams along with their textual explanations. Such questions often promote multimodal literacy and are aligned with competency-based questions, which demand a deeper cognitive processing ability from students. However, existing literature does not deal with the automatic grading of such answers. Thus, to bridge this gap, we propose the Multimodal Short Answer Grading with Feedback (MMSAF) problem along with a dataset of 2197 data points. Additionally, we provide an automated framework for generating such datasets. Our evaluations on existing Large Language Models (LLMs) over this dataset achieved an overall accuracy of 55% on the Level of Correctness labels and 75% on Image Relevance labels. As per human experts, Pixtral was more aligned towards human judgement and values for biology and ChatGPT for physics and chemistry and achieved a score of 4 or more out of 5 in most parameters.
Abstract（参考訳）: 評価は,学生の習熟度にフィードバックを提供することによって,学生の学習過程において重要な役割を担っている。評価は短い回答の質問を利用することが多いが、そのような質問を大規模に評価することはしばしば困難である。さらに、このような質問は、学生が文章の説明とともに支援図を描いている場合が多い。このような質問はしばしばマルチモーダルリテラシーを促進し、学生から深い認知処理能力を要求する能力に基づく質問に一致している。しかし、既存の文献ではそのような回答の自動階調には対応していない。そこで本研究では,このギャップを埋めるために,MMSAF(Multimodal Short Answer Grading with Feedback)問題と2197データポイントのデータセットを提案する。さらに、このようなデータセットを生成するための自動化フレームワークも提供します。このデータセットに対する既存のLarge Language Models (LLMs) の評価は, 精度が55%, 画像関連ラベルが75%であった。人間の専門家によれば、ピクサールは人間の判断や生物学の価値観、物理学や化学のChatGPTに順応し、ほとんどのパラメータにおいて5点中4点以上のスコアを得た。

関連論文リスト

Benchmarking large language models for materials synthesis: the case of atomic layer deposition [0.07528462379265576]
材料合成における大規模言語モデル(LLM)の性能を評価するために,オープンな質問ベンチマークであるALDbenchを導入する。我々のベンチマークは、大学院レベルから分野の最先端のドメインエキスパートまで、難易度の高い質問で構成されています。
論文参考訳（メタデータ） (2024-12-13T05:10:29Z)
Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文参考訳（メタデータ） (2024-10-17T01:19:18Z)
MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation [0.4857223913212445]
自動質問生成システムによって生成される質問に対する評価プロセスを自動化する新しいシステムMIRRORを提案する。その結果,MIRRORと呼ばれるフィードバックに基づく手法を用いることで,人間の評価指標,すなわち妥当性,適切性,新規性,複雑性,文法性のスコアが向上した。
論文参考訳（メタデータ） (2024-10-16T12:24:42Z)
AHP-Powered LLM Reasoning for Multi-Criteria Evaluation of Open-Ended Responses [26.850344968677582]
本研究では,大規模言語モデルを用いたオープンエンド質問に対する回答評価手法を提案する。また,ChatGPT-3.5-turbo と GPT-4 の2つのデータセットについて実験を行った。以上の結果から,本研究のアプローチは4つの基準線よりも人間の判断と密接に一致していることが示唆された。
論文参考訳（メタデータ） (2024-10-02T05:22:07Z)
Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation [19.312330150540912]
新たなアプリケーションは、Large Language Models(LLMs)を使用して、検索強化世代(RAG)機能を強化している。 FRAMESは,LLMが現実的な応答を提供する能力をテストするために設計された高品質な評価データセットである。本稿では,最先端のLLMでもこの課題に対処し,0.40の精度で検索を行なわないことを示す。
論文参考訳（メタデータ） (2024-09-19T17:52:07Z)
How to Engage Your Readers? Generating Guiding Questions to Promote Active Reading [60.19226384241482]
教科書や科学論文から10Kのインテキスト質問のデータセットであるGuidingQを紹介した。言語モデルを用いてこのような質問を生成するための様々なアプローチを探索する。我々は、そのような質問が読解に与える影響を理解するために、人間の研究を行う。
論文参考訳（メタデータ） (2024-07-19T13:42:56Z)
Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文参考訳（メタデータ） (2024-07-16T17:23:16Z)
"I understand why I got this grade": Automatic Short Answer Grading with Feedback [33.63970664152288]
本稿では,フィードバックによる短時間回答自動グルーピングのためのデータセットであるEngineering Short Answer Feedback (EngSAF)を紹介する。我々は,我々のラベル認識合成フィードバック生成(LASFG)戦略を用いて,最先端の大規模言語モデル(LLM)の生成能力を活用することで,データセットにフィードバックを組み込む。最高のパフォーマンスモデル(Mistral-7B)は、それぞれ75.4%と58.7%の精度で、未確認の回答と未確認の質問テストセットで達成している。
論文参考訳（メタデータ） (2024-06-30T15:42:18Z)
MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文参考訳（メタデータ） (2024-06-20T09:27:33Z)
LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。 LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文参考訳（メタデータ） (2024-05-23T18:21:59Z)
Rethinking Generative Large Language Model Evaluation for Semantic Comprehension [27.21438605541497]
本稿では,複数の選択質問応答(MCQA)の評価方法について再検討する。 RWQ-Elo レーティングシステムを導入し,24大言語モデル (LLM) を2プレイヤーの競争形式で動作させ,GPT-4 を審査員とする。このシステムは実世界の利用を反映するように設計されており、そのためにRWQ(Real-world Question')と呼ばれる新しいベンチマークをコンパイルした。我々の分析は、我々のRWQ-Eloシステムの安定性、新しいモデル登録の可能性、そしてその可能性を明らかにする。
論文参考訳（メタデータ） (2024-03-12T17:59:48Z)
SyllabusQA: A Course Logistics Question Answering Dataset [45.90423821963144]
我々はSyllabusQAを紹介した。63のリアルコースシラビを持つオープンソースデータセットで、36のメジャーをカバーし、5,078のオープンエンドコース関連質問応答ペアを含む。我々は,大規模言語モデルから検索拡張生成まで,このタスクのいくつかの強力なベースラインをベンチマークする。従来のテキスト類似性の指標で人間に近づいたとしても、事実の正確さという点では、自動化アプローチと人間の間には大きなギャップが残っていることが分かっています。
論文参考訳（メタデータ） (2024-03-03T03:01:14Z)
Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文参考訳（メタデータ） (2024-03-02T20:25:50Z)
SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。 SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文参考訳（メタデータ） (2024-02-06T19:16:55Z)
Can LLMs Grade Short-Answer Reading Comprehension Questions : An Empirical Study with a Novel Dataset [0.0]
本稿では,Large Language Models (LLMs) の最新のバージョンが,形式的アセスメントのための短解問題に使用される可能性について検討する。ガーナで150人以上の学生が実施した一連の読解評価から抽出した,短い回答読解質問の新しいデータセットを紹介した。本論文は, 有能なヒトラッカーと比較して, 生成性LLMの児童短解反応の各種構成がいかに良好かを実証的に評価した。
論文参考訳（メタデータ） (2023-10-26T17:05:40Z)
ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文参考訳（メタデータ） (2023-09-14T16:54:34Z)
Covering Uncommon Ground: Gap-Focused Question Generation for Answer Assessment [75.59538732476346]
このようなギャップに着目した質問(GFQ)を自動生成する問題に着目する。タスクを定義し、優れたGFQの所望の側面を強調し、これらを満たすモデルを提案する。
論文参考訳（メタデータ） (2023-07-06T22:21:42Z)
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文参考訳（メタデータ） (2022-09-20T07:04:24Z)
Few-shot Question Generation for Personalized Feedback in Intelligent Tutoring Systems [22.167776818471026]
パーソナライズされた修正フィードバックシステムは、生成質問応答システムを改善する可能性があることを示す。実対話型ITSでは,生徒の学習能力が45%,23%向上した。
論文参考訳（メタデータ） (2022-06-08T22:59:23Z)
AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer Summarization [73.91543616777064]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文参考訳（メタデータ） (2021-11-11T21:48:02Z)
Discourse Comprehension: A Question Answering Framework to Represent Sentence Connections [35.005593397252746]
談話理解のためのモデルの構築と評価における重要な課題は、注釈付きデータの欠如である。本稿では,ニュース文書の理解を目的としたスケーラブルなデータ収集を実現する新しいパラダイムを提案する。得られたコーパスDCQAは、607の英語文書からなる22,430の質問応答ペアで構成されている。
論文参考訳（メタデータ） (2021-11-01T04:50:26Z)
A Dataset of Information-Seeking Questions and Answers Anchored in Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文参考訳（メタデータ） (2021-05-07T00:12:34Z)
Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。我々は,読者が情報を求めるための実践的な戦略に携わることを示す。我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文参考訳（メタデータ） (2020-10-04T19:03:39Z)
The World is Not Binary: Learning to Rank with Grayscale Data for Dialogue Response Selection [55.390442067381755]
人間の努力なしに、グレースケールのデータを自動的に構築できることが示される。本手法では,自動グレースケールデータ生成装置として,市販の応答検索モデルと応答生成モデルを用いる。 3つのベンチマークデータセットと4つの最先端マッチングモデルの実験は、提案手法が大幅に、一貫したパフォーマンス改善をもたらすことを示している。
論文参考訳（メタデータ） (2020-04-06T06:34:54Z)
R2DE: a NLP approach to estimating IRT parameters of newly generated questions [3.364554138758565]
R2DEは、質問のテキストを見て、新しく生成された複数の選択の質問を評価することができるモデルである。特に、各質問の難易度と識別度を推定することができる。
論文参考訳（メタデータ） (2020-01-21T14:31:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。