論文の概要: Beyond End-to-End Video Models: An LLM-Based Multi-Agent System for Educational Video Generation
- arxiv url: http://arxiv.org/abs/2602.11790v1
- Date: Thu, 12 Feb 2026 10:14:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.763559
- Title: Beyond End-to-End Video Models: An LLM-Based Multi-Agent System for Educational Video Generation
- Title(参考訳): エンド・ツー・エンドビデオモデルを超えて:教育用ビデオ生成のためのLLMベースのマルチエージェントシステム
- Authors: Lingyong Yan, Jiulong Wu, Dong Xie, Weixian Shi, Deguo Xia, Jizhou Huang,
- Abstract要約: LAVESは、教育問題から高品質な指導ビデオを生成する階層型マルチエージェントシステムである。
大規模なデプロイメントでは、LAVESは1日に100万ビデオを超えるスループットを実現し、95%以上のコスト削減を実現している。
- 参考スコア(独自算出の注目度): 15.004606775581356
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although recent end-to-end video generation models demonstrate impressive performance in visually oriented content creation, they remain limited in scenarios that require strict logical rigor and precise knowledge representation, such as instructional and educational media. To address this problem, we propose LAVES, a hierarchical LLM-based multi-agent system for generating high-quality instructional videos from educational problems. The LAVES formulates educational video generation as a multi-objective task that simultaneously demands correct step-by-step reasoning, pedagogically coherent narration, semantically faithful visual demonstrations, and precise audio--visual alignment. To address the limitations of prior approaches--including low procedural fidelity, high production cost, and limited controllability--LAVES decomposes the generation workflow into specialized agents coordinated by a central Orchestrating Agent with explicit quality gates and iterative critique mechanisms. Specifically, the Orchestrating Agent supervises a Solution Agent for rigorous problem solving, an Illustration Agent that produces executable visualization codes, and a Narration Agent for learner-oriented instructional scripts. In addition, all outputs from the working agents are subject to semantic critique, rule-based constraints, and tool-based compilation checks. Rather than directly synthesizing pixels, the system constructs a structured executable video script that is deterministically compiled into synchronized visuals and narration using template-driven assembly rules, enabling fully automated end-to-end production without manual editing. In large-scale deployments, LAVES achieves a throughput exceeding one million videos per day, delivering over a 95% reduction in cost compared to current industry-standard approaches while maintaining a high acceptance rate.
- Abstract(参考訳): 最近のエンド・ツー・エンドのビデオ生成モデルは、視覚的に指向するコンテンツ生成において印象的なパフォーマンスを示しているが、厳密な論理的厳密さと、教育メディアや教育メディアのような正確な知識表現を必要とするシナリオに限られている。
この問題に対処するために,LLMに基づく階層型マルチエージェントシステムであるLAVESを提案する。
LAVESは、適切なステップバイステップ推論、台詞的コヒーレントなナレーション、セマンティックな忠実な視覚的デモンストレーション、正確な音声-視覚的アライメントを同時に要求する多目的タスクとして、教育用ビデオ生成を定式化する。従来のアプローチの限界に対処するため、手続き的忠実度、高い生産コスト、限定的な制御性を含む。-LAVESは、生成ワークフローを、明示的な品質ゲートと反復的批評機構を備えた中央オーケストレーションエージェントによって調整された特殊エージェントに分解する。
具体的には、厳密な問題解決のためのソリューションエージェント、実行可能なビジュアライゼーションコードを生成するイラストレーションエージェント、学習者指向の指導スクリプトのためのナレーションエージェントを監督する。
さらに、作業エージェントからの出力はすべて、セマンティックな批判、ルールベースの制約、ツールベースのコンパイルチェックの対象となる。
システムは、ピクセルを直接合成するのではなく、テンプレート駆動のアセンブリルールを用いて、同期化されたビジュアルとナレーションに決定的にコンパイルされる構造化された実行可能なビデオスクリプトを構築し、手作業による編集なしに、完全なエンドツーエンド生産を可能にする。
大規模なデプロイメントでは、1日100万ビデオを超えるスループットを実現し、業界標準のアプローチと比較して95%以上のコスト削減を実現し、高い受け入れ率を維持している。
関連論文リスト
- Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing [93.8111348452324]
Tele-Omniはビデオ生成と編集のための統合されたフレームワークで、マルチモーダルな指示に従う。
テキスト・ツー・ビデオ生成、画像・ビデオ生成、ファースト・ラスト・フレーム・ビデオ生成、イン・コンテクスト・ビデオ生成、およびイン・コンテクスト・ビデオ編集をサポートする。
論文 参考訳(メタデータ) (2026-02-10T10:01:16Z) - UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist [107.04196084992907]
次世代ビデオジェネラリストのためのオールニ対応マルチエージェントフレームワークUniVAを紹介する。
UniVAはPlan-and-Actのデュアルエージェントアーキテクチャを採用しており、高度に自動化されプロアクティブなワークフローを駆動している。
また、理解、編集、セグメンテーション、生成にまたがるマルチステップビデオタスクのベンチマークスイートUniVA-Benchについても紹介する。
論文 参考訳(メタデータ) (2025-11-11T17:58:13Z) - MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling [24.22367257991941]
MAViSは、長時間のビデオストーリーテリングを支援するために設計されたマルチエージェント協調フレームワークである。
スクリプト作成、ショットデザイン、キャラクターモデリング、生成、ビデオアニメーション、オーディオ生成など、複数のステージにまたがる特殊エージェントを編成する。
簡単なアイデア記述だけで、MAViSは、高品質で完全なロングシーケンス動画を効率よく生成することで、様々なビジュアルなストーリーテリングと、シーケンシャルなビデオ生成のための創造的な方向を素早く探索することができる。
論文 参考訳(メタデータ) (2025-08-11T21:42:41Z) - VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form Video Understanding by Uncertainty-Aware CoT [31.413204839972984]
本稿では,長時間のビデオ解析に適した特別なチェーン・オブ・シント(CoT)プロセスを提案する。
我々の不確実性を認識したCoTは、外部ツールからのノイズを効果的に軽減し、より信頼性の高い出力を生み出します。
我々は、一般的なコンテキスト取得や特殊なツール設計などの追加モジュールを含むVideoAgent2というシステムで、我々のアプローチを実装している。
論文 参考訳(メタデータ) (2025-04-06T13:03:34Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクのコンテキストにおいてLLMの実用性を拡張し,最小限のインプットとアウトプットのデモをコンテキストフレームワーク内で一般化する,新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。