論文の概要: Omni-Video: Democratizing Unified Video Understanding and Generation
- arxiv url: http://arxiv.org/abs/2507.06119v1
- Date: Tue, 08 Jul 2025 16:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.331343
- Title: Omni-Video: Democratizing Unified Video Understanding and Generation
- Title(参考訳): Omni-Video: 統一ビデオの理解と生成を民主化
- Authors: Zhiyu Tan, Hao Yang, Luozheng Qin, Jia Gong, Mengping Yang, Hao Li,
- Abstract要約: 本報告では,映像理解,生成,および命令ベースの編集のための効率的かつ効果的な統合フレームワークであるOmni-Videoについて述べる。
我々の重要な洞察は、拡散デコーダの入力として使用される連続的な視覚的手がかりを生成するために、既存のマルチモーダル大言語モデル(MLLM)を教えることである。
統合ビデオモデリングシステムの可能性を完全に解き明かすため,いくつかの技術的改善を取り入れた。
- 参考スコア(独自算出の注目度): 13.616454543808798
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Notable breakthroughs in unified understanding and generation modeling have led to remarkable advancements in image understanding, reasoning, production and editing, yet current foundational models predominantly focus on processing images, creating a gap in the development of unified models for video understanding and generation. This report presents Omni-Video, an efficient and effective unified framework for video understanding, generation, as well as instruction-based editing. Our key insight is to teach existing multimodal large language models (MLLMs) to produce continuous visual clues that are used as the input of diffusion decoders, which produce high-quality videos conditioned on these visual clues. To fully unlock the potential of our system for unified video modeling, we integrate several technical improvements: 1) a lightweight architectural design that respectively attaches a vision head on the top of MLLMs and a adapter before the input of diffusion decoders, the former produce visual tokens for the latter, which adapts these visual tokens to the conditional space of diffusion decoders; and 2) an efficient multi-stage training scheme that facilitates a fast connection between MLLMs and diffusion decoders with limited data and computational resources. We empirically demonstrate that our model exhibits satisfactory generalization abilities across video generation, editing and understanding tasks.
- Abstract(参考訳): 統合理解と生成モデリングにおける顕著なブレークスルーは、画像理解、推論、生産および編集において顕著な進歩をもたらしたが、現在の基礎モデルは、主に画像処理に焦点を置き、映像理解と生成のための統一モデルの開発におけるギャップを生じさせている。
本報告では,映像理解,生成,および命令ベースの編集のための効率的かつ効果的な統合フレームワークであるOmni-Videoについて述べる。
我々の重要な洞察は、既存のマルチモーダル大言語モデル(MLLM)に、拡散デコーダの入力として使用される連続的な視覚的手がかりを生成するように教えることである。
統合ビデオモデリングシステムの可能性を完全に解き明かすため、いくつかの技術的改善点を統合する。
1)拡散復号器の入力の前にMLLMの上部に視覚ヘッドとアダプタをそれぞれ取り付けた軽量な建築設計で、前者は後者の視覚トークンを生成し、これらの視覚トークンを拡散復号器の条件空間に適応させる。
2) MLLMと拡散復号器の限られたデータと計算資源との高速接続を容易にする,効率的な多段階学習手法を提案する。
我々は,本モデルがビデオ生成,編集,理解タスクにまたがる満足な一般化能力を示すことを実証的に実証した。
関連論文リスト
- Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。