論文の概要: Wan-Weaver: Interleaved Multi-modal Generation via Decoupled Training
- arxiv url: http://arxiv.org/abs/2603.25706v2
- Date: Mon, 30 Mar 2026 03:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 13:48:18.829351
- Title: Wan-Weaver: Interleaved Multi-modal Generation via Decoupled Training
- Title(参考訳): Wan-Weaver:デカップリングトレーニングによるインターリーブマルチモーダル生成
- Authors: Jinbo Xing, Zeyinzi Jiang, Yuxiang Tuo, Chaojie Mao, Xiaotang Gai, Xi Chen, Jingfeng Zhang, Yulin Pan, Zhen Han, Jie Xiao, Keyu Yan, Chenwei Xie, Chongyang Zhong, Kai Zhu, Tong Shen, Lianghua Huang, Yu Liu, Yujiu Yang,
- Abstract要約: プランナとビジュアライザで構成されるフレームワークを導入する。
ビジュアライザは画像の合成を行うのに対し、プランナーはビジュアルコンテンツのための密集したテキスト記述を生成する。
これらのデザインは、長距離テキストコヒーレンスと視覚的一貫性を備えた創発的なインターリーブ生成能力を示すWan-Weaverを生み出している。
- 参考スコア(独自算出の注目度): 68.94182767962914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent unified models have made unprecedented progress in both understanding and generation. However, while most of them accept multi-modal inputs, they typically produce only single-modality outputs. This challenge of producing interleaved content is mainly due to training data scarcity and the difficulty of modeling long-range cross-modal context. To address this issue, we decompose interleaved generation into textual planning and visual consistency modeling, and introduce a framework consisting of a planner and a visualizer. The planner produces dense textual descriptions for visual content, while the visualizer synthesizes images accordingly. Under this guidance, we construct large-scale textual-proxy interleaved data (where visual content is represented in text) to train the planner, and curate reference-guided image data to train the visualizer. These designs give rise to Wan-Weaver, which exhibits emergent interleaved generation ability with long-range textual coherence and visual consistency. Meanwhile, the integration of diverse understanding and generation data into planner training enables Wan-Weaver to achieve robust task reasoning and generation proficiency. To assess the model's capability in interleaved generation, we further construct a benchmark that spans a wide range of use cases across multiple dimensions. Extensive experiments demonstrate that, even without access to any real interleaved data, Wan-Weaver achieves superior performance over existing methods.
- Abstract(参考訳): 最近の統一モデルは、理解と生成の両方において前例のない進歩を遂げた。
しかし、多くはマルチモーダル入力を受け入れるが、通常は単一モーダル出力のみを生成する。
このインターリーブドコンテンツ作成の課題は、主にデータ不足のトレーニングと、長距離クロスモーダルコンテキストのモデル化の難しさにある。
この問題に対処するため,インターリーブド・ジェネレーションをテキスト・プランニングとビジュアル・一貫性・モデリングに分解し,プランナとビジュアライザからなるフレームワークを導入する。
ビジュアライザは画像の合成を行うのに対し、プランナーはビジュアルコンテンツのための密集したテキスト記述を生成する。
本研究では,大規模なテキスト・プロキシ・インターリーブド・データ(視覚内容がテキストで表現される)を構築し,参照誘導画像データをキュレートしてビジュアライザを訓練する。
これらのデザインは、長距離テキストコヒーレンスと視覚的一貫性を備えた創発的なインターリーブ生成能力を示すWan-Weaverを生み出している。
一方、多種多様な理解と生成データをプランナートレーニングに統合することで、Wan-Weaverは堅牢なタスク推論と生成能力を達成することができる。
インターリーブド・ジェネレーションにおけるモデルの性能を評価するため,複数の次元にまたがる幅広いユースケースにまたがるベンチマークを構築した。
大規模な実験では、実際のインターリーブされたデータにアクセスしなくても、Wan-Weaverは既存のメソッドよりも優れたパフォーマンスを実現している。
関連論文リスト
- Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization [35.14373974143734]
既存の統一モデルにおいて,この能力を解放するための強化学習に基づくポストトレーニング戦略を提案する。
提案手法は,1つの復号軌道内でのテキスト生成と画像生成を共同でモデル化し,新たなハイブリッド報酬で最適化する。
MMIEとInterleavedBenchの実験により,マルチモーダルインターリーブド生成の品質とコヒーレンスを大幅に向上させることが実証された。
論文 参考訳(メタデータ) (2026-03-10T11:49:20Z) - DeepSketcher: Internalizing Visual Manipulation for Multimodal Reasoning [16.880791276029964]
画像を用いたシンキング」とは、視覚言語モデルがテキスト中心のチェーンから画像対話的推論へシフトする現象である。
本稿では、画像テキストインターリーブ付きデータセットと自己完結型モデルの両方からなる包括的スイートであるDeepSketcherを紹介する。
我々は,視覚的な埋め込み空間で直接操作することで,インターリーブされた画像テキスト推論を実行し,視覚的思考を生成するモデルを設計する。
論文 参考訳(メタデータ) (2025-09-30T07:02:01Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。
VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。
グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文 参考訳(メタデータ) (2025-04-10T17:59:42Z) - WeGen: A Unified Model for Interactive Multimodal Generation as We Chat [51.78489661490396]
マルチモーダル生成と理解を統合するモデルWeGenを紹介する。
より詳細な指示を省くために、創造性の高い多様な結果を生成することができる。
様々なビジュアル生成ベンチマークにおいて,最先端性能が達成されていることを示す。
論文 参考訳(メタデータ) (2025-03-03T02:50:07Z) - ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer [40.32254040909614]
視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。
まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。
次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T17:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。