論文の概要: UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist
- arxiv url: http://arxiv.org/abs/2511.08521v1
- Date: Wed, 12 Nov 2025 02:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.850386
- Title: UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist
- Title(参考訳): UniVA:Universal Video Agent for Open-Source Next-Generation Video Generalist
- Authors: Zhengyang Liang, Daoan Zhang, Huichi Zhou, Rui Huang, Bobo Li, Yuechen Zhang, Shengqiong Wu, Xiaohan Wang, Jiebo Luo, Lizi Liao, Hao Fei,
- Abstract要約: 次世代ビデオジェネラリストのためのオールニ対応マルチエージェントフレームワークUniVAを紹介する。
UniVAはPlan-and-Actのデュアルエージェントアーキテクチャを採用しており、高度に自動化されプロアクティブなワークフローを駆動している。
また、理解、編集、セグメンテーション、生成にまたがるマルチステップビデオタスクのベンチマークスイートUniVA-Benchについても紹介する。
- 参考スコア(独自算出の注目度): 107.04196084992907
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While specialized AI models excel at isolated video tasks like generation or understanding, real-world applications demand complex, iterative workflows that combine these capabilities. To bridge this gap, we introduce UniVA, an open-source, omni-capable multi-agent framework for next-generation video generalists that unifies video understanding, segmentation, editing, and generation into cohesive workflows. UniVA employs a Plan-and-Act dual-agent architecture that drives a highly automated and proactive workflow: a planner agent interprets user intentions and decomposes them into structured video-processing steps, while executor agents execute these through modular, MCP-based tool servers (for analysis, generation, editing, tracking, etc.). Through a hierarchical multi-level memory (global knowledge, task context, and user-specific preferences), UniVA sustains long-horizon reasoning, contextual continuity, and inter-agent communication, enabling interactive and self-reflective video creation with full traceability. This design enables iterative and any-conditioned video workflows (e.g., text/image/video-conditioned generation $\rightarrow$ multi-round editing $\rightarrow$ object segmentation $\rightarrow$ compositional synthesis) that were previously cumbersome to achieve with single-purpose models or monolithic video-language models. We also introduce UniVA-Bench, a benchmark suite of multi-step video tasks spanning understanding, editing, segmentation, and generation, to rigorously evaluate such agentic video systems. Both UniVA and UniVA-Bench are fully open-sourced, aiming to catalyze research on interactive, agentic, and general-purpose video intelligence for the next generation of multimodal AI systems. (https://univa.online/)
- Abstract(参考訳): 生成や理解といった分離されたビデオタスクを専門とするAIモデルは優れているが、現実のアプリケーションはこれらの機能を組み合わせた複雑な反復ワークフローを必要としている。
このギャップを埋めるために、UniVAは、ビデオ理解、セグメンテーション、編集、生成を結合的なワークフローに統合する次世代ビデオジェネラリストのための、オープンソースでオールニ対応のマルチエージェントフレームワークである。
プランナーエージェントはユーザの意図を解釈し、それらを構造化されたビデオ処理ステップに分解し、エグゼクタエージェントはモジュール型のMPPベースのツールサーバ(分析、生成、編集、追跡など)を通じてこれらを実行する。
階層的なマルチレベルメモリ(グローバルな知識、タスクコンテキスト、ユーザ固有の好み)を通じて、UniVAは長距離推論、コンテキスト連続性、エージェント間通信を維持し、完全なトレーサビリティを備えた対話的かつ自己反射的なビデオ生成を可能にする。
この設計により、以前単一目的のモデルやモノリシックなビデオ言語モデルで実現できなかった反復的および任意の条件付きビデオワークフロー(例:text/image/video-conditioned generation $\rightarrow$ multi-round editing $\rightarrow$ object segmentation $\rightarrow$ compositional synthesis)が可能になる。
また,理解,編集,セグメンテーション,生成を対象とするマルチステップビデオタスクのベンチマークスイートであるUniVA-Benchを導入し,エージェントビデオシステムの評価を行った。
UniVAとUniVA-Benchはどちらも完全にオープンソースで、次世代のマルチモーダルAIシステムのための対話的、エージェント的、汎用的なビデオインテリジェンスの研究を触媒することを目的としている。
(https://univa.online/)
関連論文リスト
- Hollywood Town: Long-Video Generation via Cross-Modal Multi-Agent Orchestration [73.65102758687289]
本研究は,マルチエージェントコラボレーションを改善するための3つのイノベーションを紹介する。
まず、長いビデオ生成のための階層型グラフベースのマルチエージェントフレームワークであるOmniAgentを提案する。
第2に,文脈工学にヒントを得たハイパーグラフノードを提案する。
論文 参考訳(メタデータ) (2025-10-25T20:34:18Z) - Communicative Agents for Slideshow Storytelling Video Generation based on LLMs [4.389263274945811]
Video-Generation-Team (VGTeam) は、ビデオ生成パイプラインを再定義する新しいスライドショービデオ生成システムである。
従来のビデオ制作のシーケンシャルステージをエミュレートすることで、VGTeamは効率性とスケーラビリティの両方において顕著な改善を実現している。
平均してビデオは0.103ドル、生成率は98.4%である。
論文 参考訳(メタデータ) (2025-09-01T09:04:07Z) - Yan: Foundational Interactive Video Generation [25.398980906541524]
Yanはインタラクティブなビデオ生成の基盤となるフレームワークで、シミュレーションや生成から編集まで、パイプライン全体をカバーしている。
高圧縮低遅延3D-VAE と KV-cache-based shift-window denoising inference を併用して設計する。
本稿では,インタラクティブなメカニクスシミュレーションを視覚的レンダリングから明確に切り離すハイブリッドモデルを提案する。
論文 参考訳(メタデータ) (2025-08-12T03:34:21Z) - AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction [35.285466934451904]
本稿では,マルチモーダル方式でコンピュータと対話できる汎用エージェントであるtextscInfantAgent-Nextを紹介する。
ひとつの大きなモデルに複雑に構築するか、モジュール性のみを提供する既存のアプローチとは異なり、当社のエージェントはツールベースと純粋な視覚エージェントを統合しています。
論文 参考訳(メタデータ) (2025-05-16T05:43:27Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - AesopAgent: Agent-driven Evolutionary System on Story-to-Video
Production [34.665965986359645]
AesopAgentは、ストーリー・ツー・ビデオ制作のためのエージェント駆動進化システムである。
このシステムは統合されたフレームワークに複数の生成機能を統合し、個々のユーザがこれらのモジュールを容易に活用できるようにする。
私たちのAesopAgentは、以前のビジュアルストーリーテリングの多くの作品と比較して最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-03-12T02:30:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。