論文の概要: Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation
- arxiv url: http://arxiv.org/abs/2508.03320v1
- Date: Tue, 05 Aug 2025 10:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.92311
- Title: Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation
- Title(参考訳): Skywork UniPic:ビジュアル理解と生成のための統一された自己回帰モデリング
- Authors: Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou,
- Abstract要約: 画像理解,テキスト・ツー・イメージ生成,画像編集をひとつのアーキテクチャで統一するモデルであるSkywork UniPicを紹介する。
Skywork UniPicのGenEvalスコアは0.86で、既存の統一モデルを上回る。
- 参考スコア(独自算出の注目度): 21.262516453601556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Skywork UniPic, a 1.5 billion-parameter autoregressive model that unifies image understanding, text-to-image generation, and image editing within a single architecture-eliminating the need for task-specific adapters or inter-module connectors-and demonstrate that compact multimodal systems can achieve state-of-the-art performance on commodity hardware. Skywork UniPic achieves a GenEval score of 0.86, surpassing most existing unified models; sets a new DPG-Bench complex-generation record of 85.5; attains 5.83 on GEditBench-EN and 3.49 on ImgEdit-Bench for image editing; and generates 1024 x 1024 images with under 15 GB of GPU memory (e.g., RTX 4090). (1) a decoupled encoding strategy that leverages a masked autoregressive encoder for synthesis and a SigLIP2 encoder for understanding, all feeding a shared autoregressive decoder; (2) a progressive, resolution-aware training schedule scaling from 256 x 256 to 1024 x 1024 while dynamically unfreezing parameters to balance capacity and stability; and (3) meticulously curated, 100 million-scale datasets augmented with task-specific reward models to refine generation and editing objectives. By demonstrating that high-fidelity multimodal integration need not incur prohibitive resource demands, Skywork UniPic establishes a practical paradigm for deployable, high-fidelity multimodal AI. Code and weights are publicly available at https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
- Abstract(参考訳): 画像理解,テキスト・ツー・イメージ生成,画像編集を単一アーキテクチャで統合した15億パラメトリック自動回帰モデルであるSkywork UniPicを導入し,タスク固有のアダプタやモジュール間コネクタの必要性を排除し,コンパクトなマルチモーダルシステムがコモディティハードウェアの最先端性能を実現することを実証した。
Skywork UniPic は GenEval スコア 0.86 を達成し、既存の統一モデルの多くを上回り、新しい DPG-Bench 複合世代記録 85.5 を、画像編集のために GEditBench-EN で 5.83 を、画像編集のために ImgEdit-Bench で 3.49 を、GPUメモリ 15GB 以下の 1024 x 1024 画像を生成する (例: RTX 4090)。
1) マスク付き自己回帰エンコーダとSigLIP2エンコーダを利用して、共有自己回帰デコーダを全て供給し、(2) 256 x 256 256 から 1024 x 1024 まで、動的にパラメータを凍結してキャパシティと安定性のバランスを保ちながら、プログレッシブで解像度の高いトレーニングスケジュールをスケーリングし、(3) 精巧にキュレートされた、タスク固有の報酬モデルで強化された1億のスケールデータセットを作成・編集する。
高忠実なマルチモーダル統合が禁止されたリソース要求を発生させる必要はないことを示すことで、Skywork UniPicは、デプロイ可能な高忠実なマルチモーダルAIのための実践的なパラダイムを確立している。
コードとウェイトはhttps://huggingface.co/Skywork/Skywork-UniPic-1.5Bで公開されている。
関連論文リスト
- UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model [50.68870074090426]
我々はUniWeTokを紹介した。UniWeTokはUniified Multimodal Large Language Modelsのための統一された離散トークンである。
トレーニングフレームワークとして,個別トークンのセマンティックな抽出と生成を促進するために,プレポスト蒸留とジェネレーティブ・アウェア・プレファレンスを導入する。
我々は,UniWeTokの適応性を高めるために,様々な画像解像度と知覚に敏感なシナリオを横断する3段階のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T15:07:19Z) - DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing [67.77471070868852]
DeepGen 1.0は、画像生成と編集のための軽量な5B統一モデルである。
わずか5000万のサンプルでトレーニングされており、WISEでは80BのHunyuan Imageを28%、UniREditBenchでは27BのQwen-Image-Editを37%上回っている。
トレーニングコード、ウェイト、データセットをオープンソース化することで、統合マルチモーダルリサーチを民主化する、効率的で高性能な代替手段を提供します。
論文 参考訳(メタデータ) (2026-02-12T17:44:24Z) - Skywork UniPic 3.0: Unified Multi-Image Composition via Sequence Modeling [21.387568749211876]
単一画像編集と複数画像合成を統合した統合フレームワークSkywork UniPic 3.0を提案する。
マルチイメージ合成の課題に対処するために、包括的データ収集、フィルタリング、合成パイプラインを設計する。
本稿では,シーケンスモデリング問題としてマルチイメージ合成を定式化する新しいトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-01-22T05:23:20Z) - Seedream 4.0: Toward Next-generation Multimodal Image Generation [88.86697995940511]
Seedream 4.0は効率的かつ高性能なマルチモーダル画像生成システムである。
テキスト・トゥ・イメージ(T2I)合成、画像編集、複数画像合成を単一のフレームワークに統合する。
Seedream 4.0は、多種多様な知識中心の概念にまたがる数十億のテキストイメージ対で事前訓練されている。
論文 参考訳(メタデータ) (2025-09-24T17:59:04Z) - Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
マルチモーダル理解と生成のための統一型マスク付き拡散モデル(MDM)であるLavida-Oを提案する。
Lavida-Oは、画像レベルの理解、オブジェクトのグラウンド化、画像編集、高解像度のテキスト・ツー・イメージ合成を可能にする単一のフレームワークを提供する。
Lavida-Oは、RefCOCOオブジェクトグラウンド、GenEvalテキスト画像生成、ImgEdit画像編集など、幅広いベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-23T17:05:46Z) - Skywork UniPic 2.0: Building Kontext Model with Online RL for Unified Multimodal Model [28.559525134847828]
We present UniPic2-SD3.5M-Kontext, which is that a state-of-the-art image generation and editing while seamlessly extended into an unified multimodal framework。
我々のアプローチは、SD3.5-Mediumのアーキテクチャ変更と、高品質なデータによる大規模事前トレーニングから始まります。
UniPic2-SD3.5M-Kontextは、生成パラメータが大幅に大きいモデルよりも強力な画像生成と編集能力を示している。
論文 参考訳(メタデータ) (2025-09-04T17:00:17Z) - Ovis-U1 Technical Report [17.247107436040267]
我々は,マルチモーダル理解,テキスト・ツー・イメージ生成,画像編集機能を統合した統一モデルであるOvis-U1を紹介する。
テキスト・画像生成では、それぞれ DPG-Bench と GenEval のベンチマークで 83.72 と 0.89 のスコアを出力する。
画像編集では、ImgEdit-BenchとGEdit-Bench-ENでそれぞれ4.00と6.42を達成している。
論文 参考訳(メタデータ) (2025-06-29T00:40:17Z) - Nexus-Gen: Unified Image Understanding, Generation, and Editing via Prefilled Autoregression in Shared Embedding Space [9.327655601475605]
共有画像埋め込み空間における画像理解,生成,編集を統一する新しいアーキテクチャであるNexus-Genを提案する。
自己回帰埋め込み予測における過度なエラーの蓄積を軽減するため,新しい自己回帰戦略を提案する。
Nexus-Genは、画像理解、生成、編集タスクにまたがる評価ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-30T06:30:48Z) - SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL [112.92522479863054]
この作業は、複雑な古風な修正を伴わない、バニラ自動回帰視覚生成フレームワークであるSimpleARを提示する。
我々は,高忠実度1024×1024解像度画像を生成し,テキスト・ツー・イメージ・ベンチマークで競合する結果が得られることを示した。
これらの発見を共有し、コードをオープンソース化することによって、自己回帰的な視覚生成の可能性を明らかにしたいと考えています。
論文 参考訳(メタデータ) (2025-04-15T17:59:46Z) - CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。
既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。
また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文 参考訳(メタデータ) (2025-03-24T01:59:29Z) - HyperCLIP: Adapting Vision-Language models with Hypernetworks [43.23792024551352]
我々は、ハイパーネットワークと共に小さな画像エンコーダを使用する、HyperCLIPと呼ばれる視覚言語アーキテクチャを提案する。
モデルの3つのコンポーネント(ハイパーネットワーク、イメージエンコーダ、テキストエンコーダ)はすべて、共同でエンドツーエンドでトレーニングされている。
HyperCLIPは、小さなイメージエンコーダを持つSigLIPトレーニングモデルのゼロショット精度をImageNetで最大3%、CIFAR-100で5%向上し、トレーニングスループットのオーバーヘッドを最小限に抑える。
論文 参考訳(メタデータ) (2024-12-21T21:19:08Z) - SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training [77.681908636429]
T2I(Text-to-image)モデルは、大きなモデルサイズ、遅い、低品質なモバイルデバイス生成など、いくつかの制限に直面している。
本稿では,モバイルプラットフォーム上で高解像度かつ高画質な画像を生成する,超小型かつ高速なT2Iモデルを開発することを目的とする。
論文 参考訳(メタデータ) (2024-12-12T18:59:53Z) - STIV: Scalable Text and Image Conditioned Video Generation [84.2574247093223]
本稿では,STIVという,シンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案する。
本フレームワークは,テキストコンディショニングを取り入れつつ,フレーム交換による拡散変換器(DiT)に画像条件を統合する。
STIVは、ビデオ予測、フレーム、マルチビュー生成、長いビデオ生成など、様々なアプリケーションに容易に拡張できる。
論文 参考訳(メタデータ) (2024-12-10T18:27:06Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - REDUCIO! Generating 1K Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
我々は、ビデオには画像よりもはるかに冗長な情報が含まれており、非常に少ない動きでエンコードできると主張している。
我々は、映像を非常に圧縮された潜在空間に投影する画像条件付きVAEを設計し、コンテンツ画像に基づいてデコードする。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers [41.79064227895747]
Sanaは4096$times$4096解像度までの画像を生成できるテキスト・ツー・イメージのフレームワークである。
Sanaは、高解像度で高品質な画像を、強力なテキストイメージアライメントで驚くほど高速に合成し、ラップトップGPUにデプロイすることができる。
論文 参考訳(メタデータ) (2024-10-14T15:36:42Z) - GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting [49.32327147931905]
単一A100 GPU上で2-4のスパース画像から高品質な3Dガウス像を0.23秒で予測できるスケーラブルな大規模再構成モデルGS-LRMを提案する。
このモデルは非常に単純なトランスフォーマーベースアーキテクチャを特徴とし、入力されたイメージをパッチ化し、プリミティブなマルチビュー画像トークンをトランスフォーマーブロックのシーケンスに渡す。
論文 参考訳(メタデータ) (2024-04-30T16:47:46Z) - Towards Faster and Stabilized GAN Training for High-fidelity Few-shot
Image Synthesis [21.40315235087551]
1024*1024解像度で優れた品質を得る軽量GAN構造を提案します。
データとコンピューティングの予算が限られている場合、私たちのモデルが最先端のstylegan2よりも優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2021-01-12T22:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。