論文の概要: PresentAgent: Multimodal Agent for Presentation Video Generation
- arxiv url: http://arxiv.org/abs/2507.04036v1
- Date: Sat, 05 Jul 2025 13:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.986297
- Title: PresentAgent: Multimodal Agent for Presentation Video Generation
- Title(参考訳): PresentAgent: プレゼンテーションビデオ生成のためのマルチモーダルエージェント
- Authors: Jingwei Shi, Zeyu Zhang, Biao Wu, Yanjie Liang, Meng Fang, Ling Chen, Yang Zhao,
- Abstract要約: 長文文書をナレーション付きプレゼンテーションビデオに変換するマルチモーダルエージェントであるPresentAgentを提案する。
この統合を実現するために、PresentAgentでは、インプットドキュメントのセグメント化、計画、スライドスタイルのビジュアルフレームのレンダリングを行うモジュールパイプラインを採用している。
このようなマルチモーダルなアウトプットの評価の複雑さを考慮し,ビジョンランゲージモデルを用いた統合評価フレームワークであるPresentEvalを紹介する。
- 参考スコア(独自算出の注目度): 30.274831875701217
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present PresentAgent, a multimodal agent that transforms long-form documents into narrated presentation videos. While existing approaches are limited to generating static slides or text summaries, our method advances beyond these limitations by producing fully synchronized visual and spoken content that closely mimics human-style presentations. To achieve this integration, PresentAgent employs a modular pipeline that systematically segments the input document, plans and renders slide-style visual frames, generates contextual spoken narration with large language models and Text-to-Speech models, and seamlessly composes the final video with precise audio-visual alignment. Given the complexity of evaluating such multimodal outputs, we introduce PresentEval, a unified assessment framework powered by Vision-Language Models that comprehensively scores videos across three critical dimensions: content fidelity, visual clarity, and audience comprehension through prompt-based evaluation. Our experimental validation on a curated dataset of 30 document-presentation pairs demonstrates that PresentAgent approaches human-level quality across all evaluation metrics. These results highlight the significant potential of controllable multimodal agents in transforming static textual materials into dynamic, effective, and accessible presentation formats. Code will be available at https://github.com/AIGeeksGroup/PresentAgent.
- Abstract(参考訳): 長文文書をナレーション付きプレゼンテーションビデオに変換するマルチモーダルエージェントであるPresentAgentを提案する。
既存の手法は静的なスライドやテキスト要約の生成に限られるが,本手法は人間のスタイルの提示を忠実に模倣した完全に同期された視覚的・音声的コンテンツを生成することによって,これらの制限を克服する。
この統合を実現するために、PresentAgentはモジュールパイプラインを使用して、入力文書を体系的に分割し、スライドスタイルのビジュアルフレームを計画し、レンダリングし、大きな言語モデルとテキスト-音声モデルによる文脈的音声ナレーションを生成し、最終的な映像を正確な音声-視覚的アライメントでシームレスに構成する。
このようなマルチモーダルなアウトプットの評価の複雑さを考慮し,視覚言語モデルを用いた統合評価フレームワークであるPresentEvalを紹介した。
文書提示ペア30のキュレートされたデータセットに対する実験的な検証は、PresentAgentがすべての評価指標にまたがって人間レベルの品質にアプローチしていることを示します。
これらの結果は、静的テキスト素材を動的で効果的でアクセスしやすいプレゼンテーション形式に変換する上で、制御可能なマルチモーダルエージェントの有意義な可能性を浮き彫りにしている。
コードはhttps://github.com/AIGeeksGroup/PresentAgent.comで入手できる。
関連論文リスト
- Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure [5.332290080594085]
視覚言語モデル(VLM)は、視覚情報とテキスト情報を複数のフォーマットで処理することができる。
テキストの多いマルチモーダル文書から要約を生成するための費用対効果戦略を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:55:01Z) - PreMind: Multi-Agent Video Understanding for Advanced Indexing of Presentation-style Videos [22.39414772037232]
PreMindは講義ビデオの理解とインデクシングのための新しいマルチエージェントマルチモーダルフレームワークである。
スライドの視覚的内容の抽出、音声の物語の書き起こし、これらの視覚的内容と音声的内容の統合化という3つの重要なステップを通じて、マルチモーダルインデックスを生成する。
VLMを用いた音声書き起こし誤りの検出・訂正や、視覚分析における動的反復自己回帰のための批判エージェントの利用などである。
論文 参考訳(メタデータ) (2025-02-28T20:17:48Z) - Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。