論文の概要: OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning
- arxiv url: http://arxiv.org/abs/2603.24458v2
- Date: Thu, 02 Apr 2026 15:17:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:08.974533
- Title: OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning
- Title(参考訳): OmniWeaving:自由な構成と推論を備えた統一ビデオ生成を目指して
- Authors: Kaihang Pan, Qi Tian, Jianwei Zhang, Weijie Kong, Jiangfeng Xiong, Yanxin Long, Shixue Zhang, Haiyi Qiu, Tan Wang, Zheqi Lv, Yue Wu, Liefeng Bo, Siliang Tang, Zhao Zhong,
- Abstract要約: オムニウィービング(OmniWeaving)は、強力なマルチモーダル合成と推論インフォームド機能を備えたオムニレベルのビデオ生成モデルである。
我々はIntelligentVBenchを紹介した。IntelligentVBenchは、次世代のインテリジェントな統合ビデオ生成を厳格に評価するために設計された、最初の包括的なベンチマークである。
実験により、OmniWeavingはオープンソース統一モデル間でSoTAのパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 81.93748829204145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While proprietary systems such as Seedance-2.0 have achieved remarkable success in omni-capable video generation, open-source alternatives significantly lag behind. Most academic models remain heavily fragmented, and the few existing efforts toward unified video generation still struggle to seamlessly integrate diverse tasks within a single framework. To bridge this gap, we propose OmniWeaving, an omni-level video generation model featuring powerful multimodal composition and reasoning-informed capabilities. By leveraging a massive-scale pretraining dataset that encompasses diverse compositional and reasoning-augmented scenarios, OmniWeaving learns to temporally bind interleaved text, multi-image, and video inputs while acting as an intelligent agent to infer complex user intentions for sophisticated video creation. Furthermore, we introduce IntelligentVBench, the first comprehensive benchmark designed to rigorously assess next-level intelligent unified video generation. Extensive experiments demonstrate that OmniWeaving achieves SoTA performance among open-source unified models. The codes and model have already been publicly available. Project Page: https://omniweaving.github.io.
- Abstract(参考訳): Seedance-2.0のようなプロプライエタリなシステムは、Omni対応のビデオ生成において大きな成功を収めているが、オープンソースの代替手段は大幅に遅れている。
ほとんどの学術モデルは断片化されており、既存の統合ビデオ生成への取り組みは、単一のフレームワークに多様なタスクをシームレスに統合するのに苦戦している。
このギャップを埋めるため、我々は強力なマルチモーダル合成と推論インフォームド機能を備えたオールニレベルのビデオ生成モデルであるOmniWeavingを提案する。
OmniWeavingは、多種多様な構成および推論拡張シナリオを含む大規模な事前トレーニングデータセットを活用することで、インテリジェントエージェントとして機能しながら、インターリーブドテキスト、マルチイメージ、ビデオインプットを時間的にバインドすることを学び、高度なビデオ作成のために複雑なユーザの意図を推測する。
さらにIntelligentVBenchは、次世代のインテリジェントな統合ビデオ生成を厳格に評価するために設計された、最初の総合的なベンチマークである。
大規模な実験により、OmniWeavingはオープンソース統一モデル間でSoTAのパフォーマンスを達成している。
コードとモデルは、すでに公開されている。
Project Page: https://omniweaving.github.io.com
関連論文リスト
- OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention [31.594799790151345]
混合モダリティ推論を改善する新しい強化フレームワークであるOmniVideo-R1を提案する。
複数のベンチマークの実験では、OmniVideo-R1が強いベースラインを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2026-02-05T16:35:19Z) - Kling-Omni Technical Report [80.64599716667777]
Kling-Omniはマルチモーダルな視覚言語入力から直接高忠実度動画を合成するための生成フレームワークである。
Kling-Omniは、多様なビデオ生成、編集、インテリジェントな推論タスク間の機能的分離を橋渡しする。
テキスト命令、参照画像、ビデオコンテキストを含む多様なユーザ入力をサポートし、それらを統一されたマルチモーダル表現に処理する。
論文 参考訳(メタデータ) (2025-12-18T17:08:12Z) - UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation [61.98887854225878]
私たちは、世界対応のビデオ生成のための統合フレームワークUnityVideoを紹介します。
提案手法は,(1)異種学習パラダイムを統一するための動的ノイズ化,(2)文脈内学習者によるモダリティ・スイッチャーの2つのコアコンポーネントを特徴とする。
私たちは、UnityVideoが優れたビデオ品質、一貫性、物理世界の制約との整合性を改善することを実証した。
論文 参考訳(メタデータ) (2025-12-08T18:59:01Z) - Ola: Pushing the Frontiers of Omni-Modal Language Model [88.72389428177942]
我々はOlaについて述べる。Olaは、画像、ビデオ、音声の理解間での競合性能を実現するオムニモーダル言語モデルである。
Olaは、いくつかの重要かつ効果的な改善を通じて、高度な視覚的理解と音声認識機能を備えている。
我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (2025-02-06T18:59:55Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。