論文の概要: Bernini: Latent Semantic Planning for Video Diffusion
- arxiv url: http://arxiv.org/abs/2605.22344v1
- Date: Thu, 21 May 2026 11:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.231286
- Title: Bernini: Latent Semantic Planning for Video Diffusion
- Title(参考訳): Bernini氏:ビデオ拡散のための潜在セマンティックプランニング
- Authors: Bernini Team, Chenchen Liu, Junyi Chen, Lei Li, Lu Chi, Mingzhen Sun, Zhuoying Li, Yi Fu, Ruoyu Guo, Yiheng Wu, Ge Bai, Zehuan Yuan,
- Abstract要約: 本稿では,映像生成と編集のための統合フレームワークBerniniを提案する。
MLLMベースのプランナは、ViT埋め込み空間内でターゲットセマンティック表現を直接予測する。
Berniniは、幅広いビデオ生成と編集ベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 28.951773363020077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) and diffusion models have each reached remarkable maturity: MLLMs excel at reasoning over heterogeneous multimodal inputs with strong semantic grounding, while diffusion models synthesize images and videos with photorealistic fidelity. We argue that these two families can be unified through a simple division of labor: MLLMs perform semantic planning, while diffusion models render pixels from high-level semantic guidance and low-level visual features. Building on this idea, we propose Bernini, a unified framework for video generation and editing. An MLLM-based planner predicts the target semantic representation directly in the ViT embedding space, and a DiT-based renderer synthesizes pixels conditioned on this plan, augmented by text features and, for editing, source VAE features for detail preservation. Because semantics serve as the interface, the planner and renderer can be trained separately and only lightly co-trained, preserving the pretrained strengths of both components while keeping training efficient. To better handle multiple visual inputs, we introduce Segment-Aware 3D Rotary Positional Embedding (SA-3D RoPE), and further incorporate chain-of-thought reasoning in the planner to better transfer understanding into generation. Bernini achieves state-of-the-art performance across a wide range of video generation and editing benchmarks, with the MLLM's pretrained understanding translating into strong generalization on challenging editing tasks.
- Abstract(参考訳): MLLMは、強力なセマンティックグラウンドディングを持つ異質なマルチモーダル入力の推論に優れ、拡散モデルは、フォトリアリスティックなフィディリティで画像やビデオを合成する。
MLLMはセマンティックプランニングを行い、拡散モデルは高レベルのセマンティックガイダンスと低レベルの視覚特徴からピクセルを描画する。
このアイデアに基づいて,ビデオ生成と編集のための統合フレームワークBerniniを提案する。
MLLMベースのプランナは、ViT埋め込み空間内でターゲットセマンティック表現を直接予測し、DiTベースのレンダラは、この計画で条件付けられたピクセルを合成し、テキスト機能によって拡張し、詳細な保存のためにVAE機能をソースする。
セマンティクスがインターフェイスとして機能するため、プランナーとレンダラーは別々にトレーニングすることができ、トレーニングを効率よく保ちながら、両方のコンポーネントの事前トレーニングされた強度を保っている。
複数の視覚的入力をよりよく扱うために、私たちは、Segment-Aware 3D Rotary Positional Embedding (SA-3D RoPE)を導入し、さらにプランナーにチェーン・オブ・シークレット推論を組み込んで、理解を世代に伝達する。
バーニーニは、MLLMの事前訓練された理解によって、編集作業に挑戦する強力な一般化へと変換され、幅広いビデオ生成および編集ベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- Exploring MLLM-Diffusion Information Transfer with MetaCanvas [66.28602082523464]
本稿では,MLLMの理性と計画を直接空間的およびマルチモーダルな潜在空間で行う軽量なフレームワークを提案する。
テキスト・ツー・イメージ生成,テキスト・イメージ・ツー・ビデオ生成,画像・映像属性の編集,テキスト・ツー・イメージ生成など6つの視覚的タスクにまたがって評価を行った。
論文 参考訳(メタデータ) (2025-12-12T11:07:11Z) - Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Omni-Video: Democratizing Unified Video Understanding and Generation [13.616454543808798]
本報告では,映像理解,生成,および命令ベースの編集のための効率的かつ効果的な統合フレームワークであるOmni-Videoについて述べる。
我々の重要な洞察は、拡散デコーダの入力として使用される連続的な視覚的手がかりを生成するために、既存のマルチモーダル大言語モデル(MLLM)を教えることである。
統合ビデオモデリングシステムの可能性を完全に解き明かすため,いくつかの技術的改善を取り入れた。
論文 参考訳(メタデータ) (2025-07-08T16:02:16Z) - ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。
ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。
また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文 参考訳(メタデータ) (2025-04-02T17:45:00Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。