Fugu-MT 論文翻訳(概要): Can Multimodal LLMs See Science Instruction? Benchmarking Pedagogical Reasoning in K-12 Classroom Videos

論文の概要: Can Multimodal LLMs See Science Instruction? Benchmarking Pedagogical Reasoning in K-12 Classroom Videos

arxiv url: http://arxiv.org/abs/2602.18466v1
Date: Sun, 08 Feb 2026 15:08:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 07:21:25.589481
Title: Can Multimodal LLMs See Science Instruction? Benchmarking Pedagogical Reasoning in K-12 Classroom Videos
Title（参考訳）: マルチモーダル LLM は科学の指導を受けるか? K-12 教室ビデオにおける教育的推論のベンチマーク
Authors: Yixuan Shen, Peng He, Honglu Liu, Yuyang Ji, Tingting Li, Tianlong Chen, Kaidi Xu, Feng Liu,
Abstract要約: SciIBIは、科学教室の談話を分析するための最初のビデオベンチマークである。 8つの最先端LLMとマルチモーダルLLMを評価し,基本的限界を明らかにした。
参考スコア（独自算出の注目度）: 48.45150429099066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: K-12 science classrooms are rich sites of inquiry where students coordinate phenomena, evidence, and explanatory models through discourse; yet, the multimodal complexity of these interactions has made automated analysis elusive. Existing benchmarks for classroom discourse focus primarily on mathematics and rely solely on transcripts, overlooking the visual artifacts and model-based reasoning emphasized by the Next Generation Science Standards (NGSS). We address this gap with SciIBI, the first video benchmark for analyzing science classroom discourse, featuring 113 NGSS-aligned clips annotated with Core Instructional Practices (CIP) and sophistication levels. By evaluating eight state-of-the-art LLMs and Multimodal LLMs, we reveal fundamental limitations: current models struggle to distinguish pedagogically similar practices, suggesting that CIP coding requires instructional reasoning beyond surface pattern matching. Furthermore, adding video input yields inconsistent gains across architectures. Crucially, our evidence-based evaluation reveals that models often succeed through surface shortcuts rather than genuine pedagogical understanding. These findings establish science classroom discourse as a challenging frontier for multimodal AI and point toward human-AI collaboration, where models retrieve evidence to accelerate expert review rather than replace it.
Abstract（参考訳）: K-12科学教室は、学生が談話を通じて現象、証拠、説明モデルを協調する調査の場として豊富なものであるが、これらの相互作用のマルチモーダルな複雑さは、自動分析を解明している。既存の教室談話のベンチマークは、主に数学に焦点をあてており、次世代科学標準(NGSS)が強調する視覚的アーティファクトとモデルに基づく推論を見越して、書き起こしにのみ依存している。このギャップに対処するため,SciIBIは,CIP(Core Instructional Practices)と高度化レベルを付加した113本のNGSS対応クリップを特徴とする,理科教室の談話分析のための最初のビデオベンチマークである。現在のモデルは、教育学的に類似したプラクティスを区別するのに苦労しており、CIPコーディングは、表面パターンマッチング以上の命令的推論を必要とすることを示唆している。さらに、ビデオ入力を追加することで、アーキテクチャ間で一貫性のない利得が得られる。重要なことは、我々のエビデンスに基づく評価は、モデルが真の教育的理解よりも、表面的なショートカットによって成功することを示している。これらの知見は、マルチモーダルAIのための挑戦的なフロンティアとして科学教室の談話を確立し、モデルが専門家のレビューを加速する証拠を回収する、人間とAIのコラボレーションに向けた視点を定めている。

関連論文リスト

Visual Reasoning Benchmark: Evaluating Multimodal LLMs on Classroom-Authentic Visual Problems from Primary Education [0.0]
本稿では,視覚的推論ベンチマーク(VRB)を紹介する。マルチモーダル大規模言語モデル (MLLM) を, 教室の視覚的問題に対処する能力に基づいて評価することを目的としている。このベンチマークは、ザンビアとインドの小学校試験から得られた701の質問に基づいて構築されている。
論文参考訳（メタデータ） (2026-02-12T17:29:03Z)
OpenLearnLM Benchmark: A Unified Framework for Evaluating Knowledge, Skill, and Attitude in Educational Large Language Models [1.1375020040227939]
OpenLearnLM Benchmarkは、大規模な言語モデルを評価するフレームワークである。本ベンチマークは、複数の科目、教育的役割、難易度にまたがる124K以上の項目からなる。
論文参考訳（メタデータ） (2026-01-20T11:53:31Z)
SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models [89.10286051587151]
SciVideoBenchは、科学的文脈における高度なビデオ推論を評価するために設計された厳密なベンチマークである。 SciVideoBenchは、最先端の科学実験ビデオから得られた、慎重に構築された1000の多重選択質問で構成されている。我々の評価は、最先端のプロプライエタリおよびオープンソース LMM における大幅な性能低下を浮き彫りにしている。
論文参考訳（メタデータ） (2025-10-09T17:59:23Z)
Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。 Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文参考訳（メタデータ） (2025-10-06T17:10:44Z)
EgoInstruct: An Egocentric Video Dataset of Face-to-face Instructional Interactions with Multi-modal LLM Benchmarking [20.1877648578032]
対面指導のエゴセントリックな新しいビデオデータセットを提案する。我々は,2つの基本的なタスクに対して,命令的相互作用の包括的理解に向けた第一歩となる基本的アノテーションを提供する。画像,音声,テキストを共同処理するMLLMを最近導入した。
論文参考訳（メタデータ） (2025-09-26T07:52:26Z)
Flattery in Motion: Benchmarking and Analyzing Sycophancy in Video-LLMs [18.07249962240035]
ビデオ大言語モデル(ビデオ-LLM)は、マルチモーダル推論を必要とする現実のアプリケーションにますます統合されている。これらのモデルが視覚的エビデンスと矛盾する場合でも、ユーザ入力と整合する傾向は、そのような文脈において彼らの信頼性を損なう。我々は,最新のビデオLLMにおけるサイコファンティックな振る舞いを評価するための最初のベンチマークであるVISE(Video-LLM Sycophancy Benchmarking and Evaluation)を提案する。
論文参考訳（メタデータ） (2025-06-08T15:00:21Z)
KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。 KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文参考訳（メタデータ） (2025-05-20T16:06:32Z)
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。 6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文参考訳（メタデータ） (2025-04-08T08:06:53Z)
SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文参考訳（メタデータ） (2024-05-15T21:55:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。