論文の概要: Is your multimodal large language model a good science tutor?
- arxiv url: http://arxiv.org/abs/2505.06418v1
- Date: Fri, 09 May 2025 20:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.834651
- Title: Is your multimodal large language model a good science tutor?
- Title(参考訳): あなたのマルチモーダルな大言語モデルは優れた科学家庭教師ですか?
- Authors: Ming Liu, Liwen Wang, Wensheng Zhang,
- Abstract要約: MLLM(Multimodal large language model)は、科学的推論タスクにおける優れた性能を示す。
本研究では,MLLMを総合的な教育用ルーブリックとシミュレートされた学生モデルを用いて,理科講師として評価する枠組みを提案する。
- 参考スコア(独自算出の注目度): 14.505855717011725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) demonstrate impressive performance on scientific reasoning tasks (e.g., ScienceQA). However, most existing benchmarks focus narrowly on the accuracy of the final answer while ignoring other metrics. In particular, when applying MLLMs to educational contexts, the goal is not only correctness but also the ability to teach. In this paper, we propose a framework that evaluates MLLMs as science tutors using a comprehensive educational rubric and a simulated student model that judges the teaching performance of the tutors. Given a list of candidate MLLM science tutors, we use rubric-based student judgments to produce a range of tutor performance scores, identifying both strong and weak tutors. Using the training section of the ScienceQA dataset, we then construct a data set of pairwise comparisons between the outputs of strong and weak tutors. This enables us to apply multiple preference optimization methods to fine-tune an underperforming tutor model (Qwen2-VL-2B) into more effective ones. Our results also show that strong problem-solving skills do not guarantee high-quality tutoring and that performance optimization-guided refinements can yield more educationally aligned tutor models. This approach opens avenues for building MLLMs that serve not only as problem solvers, but as genuinely helpful educational assistants.
- Abstract(参考訳): MLLM(Multimodal large language model)は、科学推論タスク(例えばScienceQA)における印象的なパフォーマンスを示す。
しかし、既存のベンチマークのほとんどは、他のメトリクスを無視しながら最終回答の正確さに焦点を絞っている。
特に、MLLMを教育的文脈に適用する場合、目的は正しさだけでなく、教える能力でもある。
本稿では,MLLMを総合的な教育用ルーブリックとシミュレートされた学生モデルを用いて,理科教師として評価する枠組みを提案する。
MLLM科学チューターの候補リストから、ルーブリックに基づく学生判定を用いて、様々なチューターのパフォーマンススコアを生成し、強いチューターと弱いチューターの両方を識別する。
次に、ScienceQAデータセットのトレーニングセクションを用いて、強い家庭教師の出力と弱い家庭教師の出力をペアで比較したデータセットを構築する。
これにより、より効率的なチュータモデル(Qwen2-VL-2B)の微調整に複数の選好最適化手法を適用することができる。
また, 高い問題解決能力は, 高品質のチュータを保証せず, 性能最適化による改良により, より教育的に整合したチュータモデルが得られることを示した。
このアプローチは、問題解決者としてだけでなく、真に有用な教育アシスタントとして機能するMLLMを構築するための道を開く。
関連論文リスト
- MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [76.1634959528817]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - Beyond Final Answers: Evaluating Large Language Models for Math Tutoring [0.24197860834245388]
本稿では,大規模言語モデル(LLM)の正しさと品質を評価するための2つの手法を提案する。
最初のアプローチは、LLM問題解決能力を評価するためのテストベッドとして、大学代数のためのインテリジェントなチュータリングシステムを使用する。
2つ目のアプローチは、LLMを問題解決者ではなく家庭教師として評価する。
論文 参考訳(メタデータ) (2025-02-23T15:43:45Z) - Towards the Pedagogical Steering of Large Language Models for Tutoring: A Case Study with Modeling Productive Failure [36.83786872708736]
1対1の授業は、最も効果的な教育方法の1つである。
我々は、LSMプロンプトを最適化し、遷移グラフとして表される事前定義されたマルチターンチューリング計画に従うアルゴリズムであるStratLを開発した。
ケーススタディとして,先進的で効果的な学習設計であるProductive Failure (PF) に続く,高校数学のプロトタイプチューターを作成する。
論文 参考訳(メタデータ) (2024-10-03T16:15:41Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - AutoTutor meets Large Language Models: A Language Model Tutor with Rich Pedagogy and Guardrails [43.19453208130667]
大規模言語モデル(LLM)は、自動質問生成からエッセイ評価まで、いくつかのユースケースを教育で発見した。
本稿では,Large Language Models (LLMs) を用いて知的チューリングシステムを構築する可能性について検討する。
MWPTutor は LLM を用いて事前定義された有限状態トランスデューサの状態空間を補う。
論文 参考訳(メタデータ) (2024-02-14T14:53:56Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。