論文の概要: Code2Video: A Code-centric Paradigm for Educational Video Generation
- arxiv url: http://arxiv.org/abs/2510.01174v1
- Date: Wed, 01 Oct 2025 17:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.713105
- Title: Code2Video: A Code-centric Paradigm for Educational Video Generation
- Title(参考訳): Code2Video: 教育用ビデオ生成のためのコード中心のパラダイム
- Authors: Yanzhe Chen, Kevin Qinghong Lin, Mike Zheng Shou,
- Abstract要約: 我々は,Pythonコードによる教育ビデオを生成するための,コード中心のエージェントフレームワークであるCode2Videoを提案する。
i)講義内容を時間的コヒーレントなフローに構造化するPlanner,(ii)構造化命令を実行可能なPythonコードに変換するCoder,そして(iii)視覚言語モデル(VLM)を視覚的アンカープロンプトで活用し,空間的レイアウトを洗練し,明確性を確保するCryticという3つの協調エージェントから構成される。
我々の結果は、Code2Videoが拡張性があり、解釈可能で、制御可能なアプローチである可能性を示し、直接コードよりも40%改善されている。
- 参考スコア(独自算出の注目度): 60.03043132859077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent generative models advance pixel-space video synthesis, they remain limited in producing professional educational videos, which demand disciplinary knowledge, precise visual structures, and coherent transitions, limiting their applicability in educational scenarios. Intuitively, such requirements are better addressed through the manipulation of a renderable environment, which can be explicitly controlled via logical commands (e.g., code). In this work, we propose Code2Video, a code-centric agent framework for generating educational videos via executable Python code. The framework comprises three collaborative agents: (i) Planner, which structures lecture content into temporally coherent flows and prepares corresponding visual assets; (ii) Coder, which converts structured instructions into executable Python codes while incorporating scope-guided auto-fix to enhance efficiency; and (iii) Critic, which leverages vision-language models (VLM) with visual anchor prompts to refine spatial layout and ensure clarity. To support systematic evaluation, we build MMMC, a benchmark of professionally produced, discipline-specific educational videos. We evaluate MMMC across diverse dimensions, including VLM-as-a-Judge aesthetic scores, code efficiency, and particularly, TeachQuiz, a novel end-to-end metric that quantifies how well a VLM, after unlearning, can recover knowledge by watching the generated videos. Our results demonstrate the potential of Code2Video as a scalable, interpretable, and controllable approach, achieving 40% improvement over direct code generation and producing videos comparable to human-crafted tutorials. The code and datasets are available at https://github.com/showlab/Code2Video.
- Abstract(参考訳): 最近の生成モデルはピクセル空間のビデオ合成を推し進めているが、専門的な教育ビデオの制作には限界があり、学際的な知識、正確な視覚構造、コヒーレントな遷移を必要とし、教育シナリオにおける適用性を制限する。
直感的には、このような要件は、論理的なコマンド(例えばコード)を通じて明示的に制御できるレンダリング可能な環境の操作によって対処される。
本研究では,実行可能なPythonコードによる教育ビデオを生成するための,コード中心のエージェントフレームワークであるCode2Videoを提案する。
フレームワークは3つの協調エージェントから構成される。
一 講義内容を時間的に整合した流れに構成し、対応する視覚資産を準備するプランナー
(ii)Coderは、スコープ誘導のオートフィックスを取り入れて効率を高めるとともに、構造化命令を実行可能なPythonコードに変換する。
三 視覚言語モデル(VLM)を視覚的アンカープロンプトで活用し、空間的レイアウトを洗練させ、明確性を確保すること。
システム評価を支援するために,専門的な専門的な教育ビデオのベンチマークであるMMMCを構築した。
VLM-as-a-Judgeの美的スコア、コード効率、特に、未学習のVLMが、生成したビデオを見て、どのように知識を回復できるかを定量化する新しいエンドツーエンドメトリックであるTeachQuizなど、さまざまな次元でMMMCを評価した。
われわれはCode2Videoをスケーラブルで解釈可能で制御可能なアプローチとして実現し、直接コード生成よりも40%改善し、人為的なチュートリアルに匹敵するビデオを生成する可能性を実証した。
コードとデータセットはhttps://github.com/showlab/Code2Videoで公開されている。
関連論文リスト
- Omni-Video: Democratizing Unified Video Understanding and Generation [13.616454543808798]
本報告では,映像理解,生成,および命令ベースの編集のための効率的かつ効果的な統合フレームワークであるOmni-Videoについて述べる。
我々の重要な洞察は、拡散デコーダの入力として使用される連続的な視覚的手がかりを生成するために、既存のマルチモーダル大言語モデル(MLLM)を教えることである。
統合ビデオモデリングシステムの可能性を完全に解き明かすため,いくつかの技術的改善を取り入れた。
論文 参考訳(メタデータ) (2025-07-08T16:02:16Z) - Unifying Specialized Visual Encoders for Video Language Models [38.89164471290503]
Video Large Language Models (VideoLLMs) は、視覚処理の全てを単一の視覚エンコーダに頼っている。
提案手法であるMERV(Multi-Encoder Representation of Videos)では,複数の凍結した映像エンコーダを用いて映像の統一表現を作成する。
MERVは、標準のスイートビデオ理解ベンチマークにおいて、Video-LLaVAよりも3.7%精度が良い。
論文 参考訳(メタデータ) (2025-01-02T18:59:45Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。