論文の概要: Skywork UniPic 3.0: Unified Multi-Image Composition via Sequence Modeling
- arxiv url: http://arxiv.org/abs/2601.15664v1
- Date: Thu, 22 Jan 2026 05:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.501625
- Title: Skywork UniPic 3.0: Unified Multi-Image Composition via Sequence Modeling
- Title(参考訳): Skywork UniPic 3.0:シーケンスモデリングによる統合マルチイメージ合成
- Authors: Hongyang Wei, Hongbo Liu, Zidong Wang, Yi Peng, Baixin Xu, Size Wu, Xuying Zhang, Xianglong He, Zexiang Liu, Peiyu Wang, Xuchen Song, Yangguang Li, Yang Liu, Yahui Zhou,
- Abstract要約: 単一画像編集と複数画像合成を統合した統合フレームワークSkywork UniPic 3.0を提案する。
マルチイメージ合成の課題に対処するために、包括的データ収集、フィルタリング、合成パイプラインを設計する。
本稿では,シーケンスモデリング問題としてマルチイメージ合成を定式化する新しいトレーニングパラダイムを提案する。
- 参考スコア(独自算出の注目度): 21.387568749211876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent surge in popularity of Nano-Banana and Seedream 4.0 underscores the community's strong interest in multi-image composition tasks. Compared to single-image editing, multi-image composition presents significantly greater challenges in terms of consistency and quality, yet existing models have not disclosed specific methodological details for achieving high-quality fusion. Through statistical analysis, we identify Human-Object Interaction (HOI) as the most sought-after category by the community. We therefore systematically analyze and implement a state-of-the-art solution for multi-image composition with a primary focus on HOI-centric tasks. We present Skywork UniPic 3.0, a unified multimodal framework that integrates single-image editing and multi-image composition. Our model supports an arbitrary (1~6) number and resolution of input images, as well as arbitrary output resolutions (within a total pixel budget of 1024x1024). To address the challenges of multi-image composition, we design a comprehensive data collection, filtering, and synthesis pipeline, achieving strong performance with only 700K high-quality training samples. Furthermore, we introduce a novel training paradigm that formulates multi-image composition as a sequence-modeling problem, transforming conditional generation into unified sequence synthesis. To accelerate inference, we integrate trajectory mapping and distribution matching into the post-training stage, enabling the model to produce high-fidelity samples in just 8 steps and achieve a 12.5x speedup over standard synthesis sampling. Skywork UniPic 3.0 achieves state-of-the-art performance on single-image editing benchmark and surpasses both Nano-Banana and Seedream 4.0 on multi-image composition benchmark, thereby validating the effectiveness of our data pipeline and training paradigm. Code, models and dataset are publicly available.
- Abstract(参考訳): 最近のNano-BananaとSeedream 4.0の人気の高まりは、コミュニティのマルチイメージ構成タスクへの強い関心を浮き彫りにしている。
単一画像編集と比較して、複数画像合成は一貫性と品質の面で大きな課題を呈するが、既存のモデルは高品質な融合を実現するための具体的な方法論の詳細を明らかにしていない。
統計分析により,Human-Object Interaction (HOI) をコミュニティが最も求めているカテゴリーとみなす。
そこで我々は,HOI中心のタスクに主眼を置き,マルチイメージ合成のための最先端のソリューションを体系的に分析し,実装する。
単一画像編集と複数画像合成を統合した統合マルチモーダルフレームワークSkywork UniPic 3.0を提案する。
我々のモデルは、任意の (1~6) 個数と入力画像の解像度、および任意の出力解像度(合計1024×1024)をサポートします。
マルチイメージ合成の課題に対処するため,700Kの高品質なトレーニングサンプルのみを用いて,包括的なデータ収集,フィルタリング,合成パイプラインを設計する。
さらに,マルチイメージ合成をシーケンスモデリング問題として定式化し,条件生成を統一シーケンス合成に変換する,新たなトレーニングパラダイムを導入する。
推論を高速化するために、軌道マッピングと分布マッチングを後学習段階に統合し、モデルが8ステップで高忠実度サンプルを生成し、標準合成サンプリングよりも12.5倍の高速化を実現する。
Skywork UniPic 3.0は、シングルイメージ編集ベンチマークで最先端のパフォーマンスを達成し、マルチイメージ合成ベンチマークでNano-BananaとSeedream 4.0を上回り、データパイプラインとトレーニングパラダイムの有効性を検証する。
コード、モデル、データセットが公開されている。
関連論文リスト
- PSR: Scaling Multi-Subject Personalized Image Generation with Pairwise Subject-Consistency Rewards [86.1965460124838]
スケーラブルなマルチオブジェクトデータ生成パイプラインを提案する。
まず、単一オブジェクトのパーソナライズモデルを用いて、マルチイメージおよびマルチオブジェクトシナリオの知識を得る。
主観的整合性とテキスト制御性を両立させるため,ペアワイズ・サブジェスト・コンシスタンス・リワードを設計する。
論文 参考訳(メタデータ) (2025-12-01T03:25:49Z) - FusionFM: All-in-One Multi-Modal Image Fusion with Flow Matching [42.22268167379098]
我々は、画像融合をソースモーダルから融合画像分布への直接確率的輸送として定式化する。
タスク毎に最も信頼性の高い擬似ラベルを選択するためにタスク認識選択関数を用いる。
マルチタスクシナリオでは、弾力的な重み強化と経験的再生機構を統合し、クロスタスク性能を維持する。
論文 参考訳(メタデータ) (2025-11-17T02:56:48Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - Adventurer: Optimizing Vision Mamba Architecture Designs for Efficiency [41.87857129429512]
本稿では,イメージをパッチトークンのシーケンスとして扱うアドベンチャーシリーズモデルを紹介し,一方向言語モデルを用いて視覚表現を学習する。
このモデリングパラダイムにより、列長に対して線形な複雑度を持つ繰り返し定式化による画像の処理が可能となる。
本稿では,画像入力を因果推論フレームワークにシームレスに統合する2つの簡単な設計を提案する。
論文 参考訳(メタデータ) (2024-10-10T04:14:52Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。