論文の概要: EduIllustrate: Towards Scalable Automated Generation Of Multimodal Educational Content
- arxiv url: http://arxiv.org/abs/2604.05005v2
- Date: Sat, 11 Apr 2026 07:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 14:47:45.512001
- Title: EduIllustrate: Towards Scalable Automated Generation Of Multimodal Educational Content
- Title(参考訳): EduIllustrate:マルチモーダル教育コンテンツのスケーラブルな自動生成を目指して
- Authors: Shuzhen Bi, Mingzi Zhang, Zhuoxuan Li, Xiaolong Wang, Keqian Li, Aimin Zhou,
- Abstract要約: 大規模な言語モデルを評価するためのベンチマークであるEduIllustrateを提案する。
このベンチマークは、5つの被験者と3つのグレードレベルにまたがる230の課題からなる。
Gemini 3.0 Pro Previewは87.8%、Kim-K2.5は最高のコスト効率を実現している。
- 参考スコア(独自算出の注目度): 19.131221541276332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used as educational assistants, yet evaluation of their educational capabilities remains concentrated on question-answering and tutoring tasks. A critical gap exists for multimedia instructional content generation -- the ability to produce coherent, diagram-rich explanations that combine geometrically accurate visuals with step-by-step reasoning. We present EduIllustrate, a benchmark for evaluating LLMs on interleaved text-diagram explanation generation for K-12 STEM problems. The benchmark comprises 230 problems spanning five subjects and three grade levels, a standardized generation protocol with sequential anchoring to enforce cross-diagram visual consistency, and an 8-dimension evaluation rubric grounded in multimedia learning theory covering both text and visual quality. Evaluation of ten LLMs reveals a wide performance spread: Gemini 3.0 Pro Preview leads at 87.8\%, while Kimi-K2.5 achieves the best cost-efficiency (80.8\% at \\$0.12/problem). Workflow ablation confirms sequential anchoring improves Visual Consistency by 13\% at 94\% lower cost. Human evaluation with 20 expert raters validates LLM-as-judge reliability for objective dimensions ($ρ\geq 0.83$) while revealing limitations on subjective visual assessment.
- Abstract(参考訳): 大規模言語モデルは、教育助手としての利用が増えているが、その教育能力の評価は、質問応答と学習タスクに集中している。
マルチメディアのインストラクショナルコンテンツ生成には重要なギャップがあり、幾何学的に正確な視覚とステップバイステップの推論を組み合わせたコヒーレントで図に富んだ説明を生成する能力がある。
我々は,K-12 STEM問題に対するインターリーブテキスト・ダイアグラム説明生成のためのLCM評価ベンチマークであるEduIllustrateを提案する。
このベンチマークは、5つの主題と3つのグレードにまたがる230の問題と、連続的なアンカーによるクロスダイアグラムの視覚的一貫性を強制する標準化された生成プロトコルと、テキストと視覚的品質の両方をカバーするマルチメディア学習理論に根ざした8次元評価ルーリックからなる。
Gemini 3.0 Pro Previewは87.8\%、Kim-K2.5は80.8\%($0.12/problem)である。
ワークフローのアブレーションにより、シーケンシャルなアンカリングにより、ビジュアル一貫性が13\%向上し、94\%のコストが削減される。
20名の鑑定者による人間による評価は、主観的視覚的評価の限界を明らかにしながら、客観的次元に対するLLM-as-judgeの信頼性を評価する(ρ\geq 0.83$)。
関連論文リスト
- VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - VLM2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues [34.95077625513563]
textbfVLM2-Benchは視覚言語モデルが視覚的にマッチングの手がかりをリンクできるかどうかを評価するためのベンチマークである。
12個のVLMの包括的評価と、様々な言語側および視覚側プロンプト手法のさらなる分析により、合計8つの重要な結果が得られた。
視覚的な手がかりをリンクするモデルの能力において重要な課題を特定し、大きなパフォーマンスギャップを浮き彫りにする。
論文 参考訳(メタデータ) (2025-02-17T17:57:50Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。
ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。
私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-09-26T17:53:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。