論文の概要: VideoAgent: Personalized Synthesis of Scientific Videos
- arxiv url: http://arxiv.org/abs/2509.11253v1
- Date: Sun, 14 Sep 2025 12:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.998016
- Title: VideoAgent: Personalized Synthesis of Scientific Videos
- Title(参考訳): VideoAgent:科学ビデオのパーソナライズされた合成
- Authors: Xiao Liang, Bangxin Li, Zixuan Chen, Hanyue Zheng, Zhi Ma, Di Wang, Cong Tian, Quan Wang,
- Abstract要約: VideoAgentは、対話インタフェースを通じてパーソナライズされた科学的なビデオを合成する、新しいマルチエージェントフレームワークである。
VideoAgentはソース紙をきめ細かい資産ライブラリに解析し、静的スライドと動的アニメーションの両方を合成して複雑な概念を説明する物語の流れを編成する。
SciVidEvalは、マルチモーダルコンテンツ品質と同期のための自動メトリクスと、ビデオクイズに基づく人間による評価を組み合わせて知識伝達を測定する、このタスクのための最初の総合的なスイートである。
- 参考スコア(独自算出の注目度): 24.440349159498286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating the generation of scientific videos is a crucial yet challenging task for effective knowledge dissemination. However, existing works on document automation primarily focus on static media such as posters and slides, lacking mechanisms for personalized dynamic orchestration and multimodal content synchronization. To address these challenges, we introduce VideoAgent, a novel multi-agent framework that synthesizes personalized scientific videos through a conversational interface. VideoAgent parses a source paper into a fine-grained asset library and, guided by user requirements, orchestrates a narrative flow that synthesizes both static slides and dynamic animations to explain complex concepts. To enable rigorous evaluation, we also propose SciVidEval, the first comprehensive suite for this task, which combines automated metrics for multimodal content quality and synchronization with a Video-Quiz-based human evaluation to measure knowledge transfer. Extensive experiments demonstrate that our method significantly outperforms existing commercial scientific video generation services and approaches human-level quality in scientific communication.
- Abstract(参考訳): 科学的ビデオの自動生成は、効果的な知識の普及にとって重要な課題である。
しかしながら、ドキュメント自動化に関する既存の研究は、主にポスターやスライドのような静的メディアに焦点を当てており、個人化された動的オーケストレーションとマルチモーダルコンテンツ同期のためのメカニズムが欠如している。
これらの課題に対処するために,対話インタフェースを通じてパーソナライズされた科学映像を合成する,新しいマルチエージェントフレームワークであるVideoAgentを紹介する。
VideoAgentはソース・ペーパーをきめ細かなアセット・ライブラリに解析し、ユーザー要求に導かれ、静的スライドと動的アニメーションの両方を合成して複雑な概念を説明する物語の流れを編成する。
厳密な評価を実現するために,マルチモーダルコンテンツ品質と同期のための自動メトリクスと,知識伝達を測定するビデオクイズに基づく人的評価を組み合わせた,このタスクのための最初の総合的なスイートであるSciVidEvalを提案する。
大規模な実験により,本手法は既存の商用科学ビデオ生成サービスよりも優れ,科学的コミュニケーションにおける人間レベルの品質へのアプローチを示す。
関連論文リスト
- PresentAgent: Multimodal Agent for Presentation Video Generation [30.274831875701217]
長文文書をナレーション付きプレゼンテーションビデオに変換するマルチモーダルエージェントであるPresentAgentを提案する。
この統合を実現するために、PresentAgentでは、インプットドキュメントのセグメント化、計画、スライドスタイルのビジュアルフレームのレンダリングを行うモジュールパイプラインを採用している。
このようなマルチモーダルなアウトプットの評価の複雑さを考慮し,ビジョンランゲージモデルを用いた統合評価フレームワークであるPresentEvalを紹介する。
論文 参考訳(メタデータ) (2025-07-05T13:24:15Z) - Multimodal Generative AI with Autoregressive LLMs for Human Motion Understanding and Generation: A Way Forward [8.470241117250243]
本稿では,多モード生成人工知能(GenAI)と自己回帰型大規模言語モデル(LLM)を人間の動作理解と生成に利用することに焦点を当てる。
新たな手法、アーキテクチャ、および現実的で汎用的なモーション合成を前進させる可能性についての洞察を提供する。
本研究は,医療,ヒューマノイド,ゲーム,アニメーション,アシスト技術などの応用において,テキスト・トゥ・モーションのGenAIとLLMアーキテクチャの変革の可能性を示すものである。
論文 参考訳(メタデータ) (2025-05-31T11:02:24Z) - MAGREF: Masked Guidance for Any-Reference Video Generation [33.35245169242822]
MAGREFは、任意の参照ビデオ生成のための統一されたフレームワークである。
本研究では,一つのモデルで様々な対象推定を柔軟に処理できる領域認識型動的マスキング機構を提案する。
我々のモデルは、単目的訓練から複雑な多目的シナリオまで、最先端のビデオ生成品質を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:58:15Z) - RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - Multi-identity Human Image Animation with Structural Video Diffusion [64.20452431561436]
本稿では,リアルなマルチヒューマンビデオを生成するための新しいフレームワークであるStructure Video Diffusionを提案する。
当社のアプローチでは、個人間で一貫した外観を維持するために、アイデンティティ固有の埋め込みを導入している。
さまざまなマルチヒューマンとオブジェクトのインタラクションシナリオを特徴とする25Kの新しいビデオで、既存のヒューマンビデオデータセットを拡張します。
論文 参考訳(メタデータ) (2025-04-05T10:03:49Z) - Llama Learns to Direct: DirectorLLM for Human-Centric Video Generation [54.561971554162376]
ビデオ内の人間のポーズを整理するために,大規模言語モデル(LLM)を用いた新しいビデオ生成モデルである DirectorLLM を紹介する。
我々のモデルは、人間の動きの忠実度を高め、迅速な忠実度を向上し、被写体自然性を向上する上で、既存のものよりも優れています。
論文 参考訳(メタデータ) (2024-12-19T03:10:26Z) - SpatialDreamer: Self-supervised Stereo Video Synthesis from Monocular Input [6.275971782566314]
本研究では,SpatialDreamerと呼ばれるビデオ拡散モデルを用いて,自己監督型ステレオ合成ビデオパラダイムを提案する。
ステレオビデオデータ不足に対処するため,Depth ベースのビデオ生成モジュール DVG を提案する。
また,RefinerNetと,効率的で専用のトレーニングを容易にするための自己教師型合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T15:12:59Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z) - VMSMO: Learning to Generate Multimodal Summary for Video-based News
Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。
このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。
本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文 参考訳(メタデータ) (2020-10-12T02:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。