論文の概要: Are Video Models Zero-Shot Learners and Reasoners in Education? EduVideoBench, A Knowledge-Skills-Attitude Benchmark for Educational Video Generation
- arxiv url: http://arxiv.org/abs/2605.26918v1
- Date: Tue, 26 May 2026 12:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.062105
- Title: Are Video Models Zero-Shot Learners and Reasoners in Education? EduVideoBench, A Knowledge-Skills-Attitude Benchmark for Educational Video Generation
- Title(参考訳): ビデオモデルは教育におけるゼロショット学習者と推論者か? : 教育ビデオ生成のための知識スキル評価ベンチマークEduVideoBench
- Authors: Unggi Lee, Hoyoung Ahn, Yoon Choi, Seonmin Eun, Jahyun Jeong, Seonmin Jin, Harmony Jung, Hye Jin Kim, Chaerin Lee, Hyunji Lee, Jeongjin Lee, Soohwan Lee, Young-Seok Oh, Jaehyeon Park, Sun-ok Ryu, Sunyoung Shin, Yoorim Son, Haeun Park, Yeil Jeong,
- Abstract要約: 教育分野における最初のバランスの取れたベンチマークであるEduVideoBenchを紹介します。
以上の結果から,授業前に知識,スキル,態度の面で改善の余地があることが示唆された。
EduVideoBenchは、教室の安全を図ったVGMの開発をガイドしてくれることを願っている。
- 参考スコア(独自算出の注目度): 11.425144935556789
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video generation models (VGMs) are rapidly entering classrooms, yet existing benchmarks evaluate only perceptual quality, intrinsic faithfulness, generic safety, or video as a reasoning medium, and none assesses whether the outputs are educationally valid. In this work, we present EduVideoBench, the first balanced benchmark in the education domain, grounded in the Knowledge-Skills-Attitude (KSA) framework so that pedagogical adequacy and educational safety are evaluated jointly rather than as ad-hoc quality dimensions. Across five frontier VGMs, our results show substantial room for improvement across knowledge, skills, and attitude before they are classroom-ready. We complement this with a qualitative analysis of expert comments, finding that educational validity is multi-component, where a single misaligned element such as pacing, legibility, or notation can invalidate an otherwise correct video. We hope EduVideoBench will guide the development of VGMs that are pedagogically grounded and safe for the classroom.
- Abstract(参考訳): ビデオ生成モデル(VGM)は急速に教室に入ってきているが、既存のベンチマークでは、知覚品質、本質的忠実性、一般的な安全性、ビデオのみを推論媒体として評価しており、アウトプットが教育的に有効かどうかを評価していない。
本研究では,教育分野における最初のバランスの取れたベンチマークであるEduVideoBenchについて,知識スキル評価(KSA)フレームワークを基礎として,教育的妥当性と教育的安全性を,アドホックな品質次元ではなく共同で評価する。
5つのフロンティアVGMにおいて,本研究の結果は,授業の受講前に知識,スキル,態度にまたがる改善の余地があることが示唆された。
我々はこれを専門家のコメントの質的な分析によって補完し、教育的妥当性が多元的であることを見出した。
EduVideoBenchは、教室の安全を図ったVGMの開発をガイドしてくれることを願っている。
関連論文リスト
- EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education [21.304581210099045]
AI生成ビデオ(AIGV)の品質を評価するための最初のベンチマークデータセットと評価フレームワークであるEduAIGV-1kを紹介する。
EduAIGV-1kには、113のペダギー指向のプロンプトを使用して、10の最先端のテキスト・トゥ・ビデオ(T2V)モデルによって生成された1,130の短いビデオが含まれている。
論文 参考訳(メタデータ) (2026-03-03T15:05:27Z) - Structured Over Scale: Learning Spatial Reasoning from Educational Video [6.358055069130984]
我々は,Dora the Explorerの8シーズンから自動的に抽出された5,344の質問応答ペアのデータセットであるDoraVQAを紹介する。
我々はQwen2とQwen3の両方を微調整し、教育内容に固有の明確な正当性信号と構造化された推論トレースを活用する。
CVBenchではDoraVQAの8-14点,最先端の86.16%の改善を実現している。
論文 参考訳(メタデータ) (2026-01-30T18:20:23Z) - VC-Bench: Pioneering the Video Connecting Benchmark with a Dataset and Evaluation Metrics [83.61875204972465]
ビデオ接続(Video Connecting)は,ビデオクリップの開始と終了の間にスムーズな中間映像コンテンツを生成するタスクである。
このギャップを埋めるため、私たちはビデオ接続に特化した新しいベンチマークであるVC-Benchを提案しました。
VC-Benchは、ビデオ品質スコアVQS、スタート-エンド一貫性スコアSECS、トランジッションスムースネススコアSSの3つの中核的な側面に焦点を当てている。
論文 参考訳(メタデータ) (2026-01-27T06:15:12Z) - EduGuardBench: A Holistic Benchmark for Evaluating the Pedagogical Fidelity and Adversarial Safety of LLMs as Simulated Teachers [8.123835490773095]
職業シミュレーションのための大規模言語モデル(SP-LLM)は、パーソナライズされた教育において重要である。
EduGuardBenchはロールプレイングフィデリティスコア(RFS)を用いてプロのフィデリティを評価する
また、一般的な害、特に学術的不正をターゲットとしたペルソナベースの敵対的プロンプトを使用して安全性の脆弱性を調査する。
論文 参考訳(メタデータ) (2025-11-10T09:42:24Z) - Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs [45.265397990158846]
Video-SafetyBenchは、ビデオテキスト攻撃下でのLVLMの安全性を評価するために設計された最初のベンチマークである。
ビデオテキストのペアは2,264で、48のきめ細かいアンセーフなカテゴリにまたがっている。
安全性評価のためのセマンティックなビデオを生成するために,ビデオ意味論を主題画像とモーションテキストに分解する制御可能なパイプラインを設計する。
論文 参考訳(メタデータ) (2025-05-17T05:06:38Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [82.91830877219822]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - Saliency Detection in Educational Videos: Analyzing the Performance of Current Models, Identifying Limitations and Advancement Directions [7.706941074799756]
ビデオ中の残差検出は、単一のフレーム内の注意を引く領域の自動認識に対処する。
現在、教育ビデオにおける唾液度検出のアプローチを評価する研究は行われていない。
我々は、元の研究を再現し、汎用的な(非教育的な)データセットの複製能力を探求する。
論文 参考訳(メタデータ) (2024-08-08T15:15:48Z) - T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models [39.15695612766001]
T2VSafetyBenchは,テキスト・ビデオモデルの安全性評価のための新しいベンチマークである。
ビデオ生成の安全性に関する12の重要な側面を定義し,悪意のあるプロンプトデータセットを構築する。
異なるモデルは様々な強みを示す。
テキスト・ビデオ生成モデルのユーザビリティと安全性にはトレードオフがある。
論文 参考訳(メタデータ) (2024-07-08T14:04:58Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。