論文の概要: VINO: A Unified Visual Generator with Interleaved OmniModal Context
- arxiv url: http://arxiv.org/abs/2601.02358v1
- Date: Mon, 05 Jan 2026 18:56:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.424976
- Title: VINO: A Unified Visual Generator with Interleaved OmniModal Context
- Title(参考訳): VINO:OmniModalコンテキストをインターリーブした統合ビジュアルジェネレータ
- Authors: Junyi Chen, Tong He, Zhoujie Fu, Pengfei Wan, Kun Gai, Weicai Ye,
- Abstract要約: VINOは、単一のフレームワーク内で画像とビデオの生成と編集を行う統合ビジュアルジェネレータである。
タスク固有のモデルやモジュールを各モダリティに依存するのではなく、VINOは共有拡散バックボーンを使用する。
- 参考スコア(独自算出の注目度): 36.71641694179164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present VINO, a unified visual generator that performs image and video generation and editing within a single framework. Instead of relying on task-specific models or independent modules for each modality, VINO uses a shared diffusion backbone that conditions on text, images and videos, enabling a broad range of visual creation and editing tasks under one model. Specifically, VINO couples a vision-language model (VLM) with a Multimodal Diffusion Transformer (MMDiT), where multimodal inputs are encoded as interleaved conditioning tokens, and then used to guide the diffusion process. This design supports multi-reference grounding, long-form instruction following, and coherent identity preservation across static and dynamic content, while avoiding modality-specific architectural components. To train such a unified system, we introduce a multi-stage training pipeline that progressively expands a video generation base model into a unified, multi-task generator capable of both image and video input and output. Across diverse generation and editing benchmarks, VINO demonstrates strong visual quality, faithful instruction following, improved reference and attribute preservation, and more controllable multi-identity edits. Our results highlight a practical path toward scalable unified visual generation, and the promise of interleaved, in-context computation as a foundation for general-purpose visual creation.
- Abstract(参考訳): 本稿では、単一のフレームワーク内で画像とビデオの生成と編集を行う統合ビジュアルジェネレータであるVINOについて述べる。
タスク固有のモデルや独立したモジュールを各モダリティに依存するのではなく、VINOはテキスト、画像、ビデオに条件付けされた共有拡散バックボーンを使用して、1つのモデルの下で広範囲の視覚的生成および編集タスクを可能にする。
具体的には、VINOはマルチモーダル拡散変換器(MMDiT)と視覚言語モデル(VLM)を結合し、マルチモーダル入力をインターリーブ条件付きトークンとしてエンコードし、拡散過程を導く。
この設計は、モダリティ固有のアーキテクチャコンポーネントを回避しつつ、静的および動的コンテンツにわたるマルチ参照グラウンド、ロングフォーム命令フォロー、コヒーレントID保存をサポートする。
このような統合システムを訓練するために、映像生成ベースモデルを段階的に拡張し、画像と映像の入力と出力の両方が可能な統一マルチタスクジェネレータに変換するマルチステージトレーニングパイプラインを導入する。
さまざまな生成および編集ベンチマークを通じて、VINOは、強力な視覚的品質、忠実な指示、参照と属性の保存の改善、より制御可能なマルチアイデンティティの編集を示す。
この結果から,拡張性のある統一視覚生成への実践的な道のりと,汎用的な視覚生成基盤としてのインターリーブ・インコンテキスト計算の約束が浮き彫りになった。
関連論文リスト
- TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models [96.41974190202642]
統一マルチモーダルモデル(UMM)は,単一のフレームワーク内でのマルチモーダル理解と生成を共同で行うことを目的としている。
本稿では、VAEエンコーダを表現エンコーダでカスケードすることで、統一された連続的な視覚表現を構築するネイティブUMMであるTUNAを提案する。
論文 参考訳(メタデータ) (2025-12-01T18:59:51Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。
共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。
テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:59:51Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。