論文の概要: Communicative Agents for Slideshow Storytelling Video Generation based on LLMs
- arxiv url: http://arxiv.org/abs/2509.01277v1
- Date: Mon, 01 Sep 2025 09:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.614066
- Title: Communicative Agents for Slideshow Storytelling Video Generation based on LLMs
- Title(参考訳): LLMを用いたスライドショーストーリーテリング映像生成のためのコミュニケーションエージェント
- Authors: Jingxing Fan, Jinrong Shen, Yusheng Yao, Shuangqing Wang, Qian Wang, Yuling Wang,
- Abstract要約: Video-Generation-Team (VGTeam) は、ビデオ生成パイプラインを再定義する新しいスライドショービデオ生成システムである。
従来のビデオ制作のシーケンシャルステージをエミュレートすることで、VGTeamは効率性とスケーラビリティの両方において顕著な改善を実現している。
平均してビデオは0.103ドル、生成率は98.4%である。
- 参考スコア(独自算出の注目度): 4.389263274945811
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid advancement of artificial intelligence (AI), the proliferation of AI-generated content (AIGC) tasks has significantly accelerated developments in text-to-video generation. As a result, the field of video production is undergoing a transformative shift. However, conventional text-to-video models are typically constrained by high computational costs. In this study, we propose Video-Generation-Team (VGTeam), a novel slide show video generation system designed to redefine the video creation pipeline through the integration of large language models (LLMs). VGTeam is composed of a suite of communicative agents, each responsible for a distinct aspect of video generation, such as scriptwriting, scene creation, and audio design. These agents operate collaboratively within a chat tower workflow, transforming user-provided textual prompts into coherent, slide-style narrative videos. By emulating the sequential stages of traditional video production, VGTeam achieves remarkable improvements in both efficiency and scalability, while substantially reducing computational overhead. On average, the system generates videos at a cost of only $0.103, with a successful generation rate of 98.4%. Importantly, this framework maintains a high degree of creative fidelity and customization. The implications of VGTeam are far-reaching. It democratizes video production by enabling broader access to high-quality content creation without the need for extensive resources. Furthermore, it highlights the transformative potential of language models in creative domains and positions VGTeam as a pioneering system for next-generation content creation.
- Abstract(参考訳): 人工知能(AI)の急速な進歩により、AIGCタスクの急増はテキスト・ビデオ生成の発展を著しく加速した。
その結果、ビデオ制作の分野は変貌を遂げつつある。
しかし、従来のテキスト・ビデオモデルは通常、高い計算コストで制約される。
本研究では,大規模言語モデル(LLM)の統合により,映像生成パイプラインを再定義する新しいスライドショー映像生成システムであるVGTeamを提案する。
VGTeamは一連のコミュニケーションエージェントで構成されており、それぞれがスクリプト作成、シーン作成、オーディオデザインなど、ビデオ生成の異なる側面を担っている。
これらのエージェントはチャットタワーのワークフロー内で協調して動作し、ユーザが提供するテキストプロンプトを一貫性のあるスライドスタイルの物語ビデオに変換する。
従来のビデオ制作のシーケンシャルステージをエミュレートすることで、VGTeamは効率とスケーラビリティの両方において顕著な改善を実現し、計算オーバーヘッドを大幅に削減した。
平均してビデオは0.103ドル、生成率は98.4%である。
重要な点として、このフレームワークは高い創造性とカスタマイズを維持している。
VGTeamの意義は極めて大きい。
ビデオ制作の民主化を図り、大量のリソースを必要とせずに高品質なコンテンツ制作に幅広いアクセスを可能にする。
さらに、創造的なドメインにおける言語モデルの変革の可能性を強調し、VGTeamを次世代コンテンツ作成の先駆的なシステムとして位置づける。
関連論文リスト
- Beyond End-to-End Video Models: An LLM-Based Multi-Agent System for Educational Video Generation [15.004606775581356]
LAVESは、教育問題から高品質な指導ビデオを生成する階層型マルチエージェントシステムである。
大規模なデプロイメントでは、LAVESは1日に100万ビデオを超えるスループットを実現し、95%以上のコスト削減を実現している。
論文 参考訳(メタデータ) (2026-02-12T10:14:36Z) - The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation [95.18045807704284]
対話・シネマティック・ビデオ生成のためのエンドツーエンドのエージェント・フレームワークを提案する。
ScripterAgentは粗い対話を微粒で実行可能なシネマティックスクリプトに変換するように訓練されている。
本フレームワークは,テスト対象のすべてのビデオモデルに対して,スクリプトの忠実度と時間的忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2026-01-25T08:10:28Z) - Bridging Your Imagination with Audio-Video Generation via a Unified Director [54.45375287950375]
論理的推論と想像的思考はどちらも映画監督の基本的特性であると主張する。
ユーザプロンプトを適切に構造化されたスクリプトでブリッジする統合ディレクタモデルUniMAGEを提案する。
論文 参考訳(メタデータ) (2025-12-29T05:56:22Z) - UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist [107.04196084992907]
次世代ビデオジェネラリストのためのオールニ対応マルチエージェントフレームワークUniVAを紹介する。
UniVAはPlan-and-Actのデュアルエージェントアーキテクチャを採用しており、高度に自動化されプロアクティブなワークフローを駆動している。
また、理解、編集、セグメンテーション、生成にまたがるマルチステップビデオタスクのベンチマークスイートUniVA-Benchについても紹介する。
論文 参考訳(メタデータ) (2025-11-11T17:58:13Z) - TA-V2A: Textually Assisted Video-to-Audio Generation [9.957113952852051]
V2A(Video-to-audio)生成は、マルチメディア編集、拡張現実、自動コンテンツ作成において有望な領域として登場した。
本稿では,言語,音声,ビデオ機能を統合し,潜在空間における意味表現を改善するTA-V2Aを提案する。
論文 参考訳(メタデータ) (2025-03-12T06:43:24Z) - VideoAuteur: Towards Long Narrative Video Generation [22.915448471769384]
本稿では,調理領域における長めの物語生成を促進するために,大規模な調理ビデオデータセットを提案する。
生成ビデオにおける視覚的・意味的コヒーレンスを高めるために,Long Narrative Video Directorを導入する。
本手法は,視覚的細部および意味的整合性の生成における大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-10T18:52:11Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。