論文の概要: Communicative Agents for Slideshow Storytelling Video Generation based on LLMs
- arxiv url: http://arxiv.org/abs/2509.01277v1
- Date: Mon, 01 Sep 2025 09:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.614066
- Title: Communicative Agents for Slideshow Storytelling Video Generation based on LLMs
- Title(参考訳): LLMを用いたスライドショーストーリーテリング映像生成のためのコミュニケーションエージェント
- Authors: Jingxing Fan, Jinrong Shen, Yusheng Yao, Shuangqing Wang, Qian Wang, Yuling Wang,
- Abstract要約: Video-Generation-Team (VGTeam) は、ビデオ生成パイプラインを再定義する新しいスライドショービデオ生成システムである。
従来のビデオ制作のシーケンシャルステージをエミュレートすることで、VGTeamは効率性とスケーラビリティの両方において顕著な改善を実現している。
平均してビデオは0.103ドル、生成率は98.4%である。
- 参考スコア(独自算出の注目度): 4.389263274945811
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid advancement of artificial intelligence (AI), the proliferation of AI-generated content (AIGC) tasks has significantly accelerated developments in text-to-video generation. As a result, the field of video production is undergoing a transformative shift. However, conventional text-to-video models are typically constrained by high computational costs. In this study, we propose Video-Generation-Team (VGTeam), a novel slide show video generation system designed to redefine the video creation pipeline through the integration of large language models (LLMs). VGTeam is composed of a suite of communicative agents, each responsible for a distinct aspect of video generation, such as scriptwriting, scene creation, and audio design. These agents operate collaboratively within a chat tower workflow, transforming user-provided textual prompts into coherent, slide-style narrative videos. By emulating the sequential stages of traditional video production, VGTeam achieves remarkable improvements in both efficiency and scalability, while substantially reducing computational overhead. On average, the system generates videos at a cost of only $0.103, with a successful generation rate of 98.4%. Importantly, this framework maintains a high degree of creative fidelity and customization. The implications of VGTeam are far-reaching. It democratizes video production by enabling broader access to high-quality content creation without the need for extensive resources. Furthermore, it highlights the transformative potential of language models in creative domains and positions VGTeam as a pioneering system for next-generation content creation.
- Abstract(参考訳): 人工知能(AI)の急速な進歩により、AIGCタスクの急増はテキスト・ビデオ生成の発展を著しく加速した。
その結果、ビデオ制作の分野は変貌を遂げつつある。
しかし、従来のテキスト・ビデオモデルは通常、高い計算コストで制約される。
本研究では,大規模言語モデル(LLM)の統合により,映像生成パイプラインを再定義する新しいスライドショー映像生成システムであるVGTeamを提案する。
VGTeamは一連のコミュニケーションエージェントで構成されており、それぞれがスクリプト作成、シーン作成、オーディオデザインなど、ビデオ生成の異なる側面を担っている。
これらのエージェントはチャットタワーのワークフロー内で協調して動作し、ユーザが提供するテキストプロンプトを一貫性のあるスライドスタイルの物語ビデオに変換する。
従来のビデオ制作のシーケンシャルステージをエミュレートすることで、VGTeamは効率とスケーラビリティの両方において顕著な改善を実現し、計算オーバーヘッドを大幅に削減した。
平均してビデオは0.103ドル、生成率は98.4%である。
重要な点として、このフレームワークは高い創造性とカスタマイズを維持している。
VGTeamの意義は極めて大きい。
ビデオ制作の民主化を図り、大量のリソースを必要とせずに高品質なコンテンツ制作に幅広いアクセスを可能にする。
さらに、創造的なドメインにおける言語モデルの変革の可能性を強調し、VGTeamを次世代コンテンツ作成の先駆的なシステムとして位置づける。
関連論文リスト
- VideoAuteur: Towards Long Narrative Video Generation [22.915448471769384]
本稿では,調理領域における長めの物語生成を促進するために,大規模な調理ビデオデータセットを提案する。
生成ビデオにおける視覚的・意味的コヒーレンスを高めるために,Long Narrative Video Directorを導入する。
本手法は,視覚的細部および意味的整合性の生成における大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-10T18:52:11Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。