論文の概要: EduStory: A Unified Framework for Pedagogically-Consistent Multi-Shot STEM Instructional Video Generation
- arxiv url: http://arxiv.org/abs/2605.09378v1
- Date: Sun, 10 May 2026 07:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.220124
- Title: EduStory: A Unified Framework for Pedagogically-Consistent Multi-Shot STEM Instructional Video Generation
- Title(参考訳): EduStory: Pedagogically-Consistent Multi-Shot STEM Instructional Video Generationのための統一フレームワーク
- Authors: Xinyi Wu, Jayant Teotia, Shuai Zhao, Erik Cambria,
- Abstract要約: EduStoryは、信頼できるビデオ生成のための統一されたフレームワークである。
それは、永続的な知識状態を追跡するための教育的状態モデリング、マルチショットの物語を整理するためのスクリプト誘導型構造化制御、学習指向評価メトリクスを統合する。
EduVideoBenchは、ペタゴラルなストーリーボード、ショットレベルのセマンティクス、知識状態遷移を含む、多彩なアノテーションを備えた診断ベンチマークである。
- 参考スコア(独自算出の注目度): 40.60762124779023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon video generation has advanced in visual quality, yet existing methods still struggle to maintain knowledge consistency and coherent pedagogical narratives across multi-shot instructional videos, especially in STEM domains. To address these challenges, we propose EduStory, a unified framework for reliable instructional video generation. EduStory integrates pedagogical state modeling to track persistent knowledge states, script-guided structured control to organize multi-shot narratives, and learning-oriented evaluation metrics to assess knowledge fidelity and constraint satisfaction. To support rigorous evaluation, we further introduce EduVideoBench, a diagnostic benchmark with multi-granularity annotations, including pedagogical storyboards, shot-level semantics, and knowledge state transitions, together with baseline tasks for controllable instructional video generation. Extensive experiments demonstrate that domain-aware state modeling and structured control substantially reduce narrative breakdown and improve alignment with instructional intent. These results highlight the significance of domain-specific structural constraints and tailored benchmarks for advancing reliable, controllable, and also trustworthy long-horizon video generation.
- Abstract(参考訳): ロングホライゾンビデオ生成は、視覚的品質が向上しているが、既存の手法は、特にSTEM領域において、マルチショットの指導ビデオにおける知識の一貫性と一貫性のある教育的物語の維持に苦慮している。
これらの課題に対処するために,信頼性のあるビデオ生成のための統合フレームワークであるEduStoryを提案する。
EduStoryは、永続的な知識状態を追跡するための教育的状態モデリング、マルチショットの物語を整理するためのスクリプト誘導型構造化制御、知識の忠実さと制約満足度を評価するための学習指向評価指標を統合する。
厳密な評価を支援するため,ペタゴジカルなストーリーボードやショットレベルのセマンティクス,知識状態遷移など,多粒度アノテーションを用いた診断ベンチマークであるEduVideoBenchと,制御可能なビデオ生成のためのベースラインタスクについても紹介する。
ドメイン認識状態モデリングと構造化制御が物語の分解を著しく減らし、指示意図との整合性を向上することを示した。
これらの結果は、信頼性が高く、制御可能で、また信頼できる長距離ビデオ生成のための、ドメイン固有の構造制約と調整されたベンチマークの重要性を強調している。
関連論文リスト
- Beyond End-to-End Video Models: An LLM-Based Multi-Agent System for Educational Video Generation [15.004606775581356]
LAVESは、教育問題から高品質な指導ビデオを生成する階層型マルチエージェントシステムである。
大規模なデプロイメントでは、LAVESは1日に100万ビデオを超えるスループットを実現し、95%以上のコスト削減を実現している。
論文 参考訳(メタデータ) (2026-02-12T10:14:36Z) - UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving [35.86460001147528]
複雑なシナリオに対する推論と計画アノテーションを提供する特別なデータセットを構築します。
シーン推論,将来の映像生成,軌道計画の相乗化を目的として,UniUGPという統合理解・生成・計画フレームワークを提案する。
実験は、認識、推論、意思決定における最先端のパフォーマンスを示し、ロングテールな状況に挑戦するために優れた一般化を行う。
論文 参考訳(メタデータ) (2025-12-10T17:50:29Z) - SlideBot: A Multi-Agent Framework for Generating Informative, Reliable, Multi-Modal Presentations [29.874786844781138]
大規模言語モデル(LLM)は、クイズ生成やコンテンツ要約といったタスクを自動化し、教育において大きな可能性を示している。
既存のLCMベースのソリューションは、信頼性と情報的アウトプットが得られず、教育的価値が制限されることが多い。
SlideBot - LLMを検索、構造化計画、コード生成と統合したモジュラーでマルチエージェントなスライド生成フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T23:12:05Z) - ID-Composer: Multi-Subject Video Synthesis with Hierarchical Identity Preservation [48.59900036213667]
大規模なデータセットで事前訓練されたビデオ生成モデルは高品質なビデオを生成することができるが、テキストや単一の画像に条件付けされることも多い。
本稿では,テキストプロンプトと参照画像から多目的映像を生成する新しいフレームワークであるID-Composerを紹介する。
論文 参考訳(メタデータ) (2025-11-01T11:29:14Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - VidCLearn: A Continual Learning Approach for Text-to-Video Generation [11.861060763379236]
VidCLearnはテキスト・ビデオ生成のための継続的学習フレームワークである。
動きの平滑性を高めるための新しい時間的一貫性損失と、推論における構造的ガイダンスを提供するビデオ検索モジュールを導入する。
私たちのアーキテクチャは、良好な生成性能を維持しながら、既存のモデルよりも計算効率が良いように設計されています。
論文 参考訳(メタデータ) (2025-09-21T07:34:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。