論文の概要: UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
- arxiv url: http://arxiv.org/abs/2506.03147v1
- Date: Tue, 03 Jun 2025 17:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.993195
- Title: UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
- Title(参考訳): UniWorld: 統一された視覚理解と生成のための高分解能セマンティックエンコーダ
- Authors: Bin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan,
- Abstract要約: 我々は、強力な視覚言語モデルと対照的な意味エンコーダによって提供される意味的特徴に基づいて、UniWorldという統合された生成フレームワークを提案する。
BAGELのデータ量は1%に過ぎず,画像編集ベンチマークでは常にBAGELを上回っている。
モデルウェイト、トレーニングと評価スクリプト、データセットなど、当社のモデルを完全にオープンソースにしています。
- 参考スコア(独自算出の注目度): 14.95468978198402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although existing unified models deliver strong performance on vision-language understanding and text-to-image generation, their models are limited in exploring image perception and manipulation tasks, which are urgently desired by users for wide applications. Recently, OpenAI released their powerful GPT-4o-Image model for comprehensive image perception and manipulation, achieving expressive capability and attracting community interests. By observing the performance of GPT-4o-Image in our carefully constructed experiments, we infer that GPT-4o-Image leverages features extracted by semantic encoders instead of VAE, while VAEs are considered essential components in many image manipulation models. Motivated by such inspiring observations, we present a unified generative framework named UniWorld based on semantic features provided by powerful visual-language models and contrastive semantic encoders. As a result, we build a strong unified model using only 1% amount of BAGEL's data, which consistently outperforms BAGEL on image editing benchmarks. UniWorld also maintains competitive image understanding and generation capabilities, achieving strong performance across multiple image perception tasks. We fully open-source our models, including model weights, training and evaluation scripts, and datasets.
- Abstract(参考訳): 既存の統合モデルは、視覚言語による理解とテキスト・ツー・イメージ生成に強いパフォーマンスをもたらすが、それらのモデルは画像認識と操作タスクの探索に限られる。
最近OpenAIは、画像認識と操作を包括的に行う強力なGPT-4o画像モデルをリリースし、表現能力を実現し、コミュニティの関心を惹きつける。
GPT-4o-Imageの性能を慎重に構築した実験で観察することにより、GAT-4o-Imageは、VAEの代わりにセマンティックエンコーダによって抽出された特徴を利用するが、VAEは多くの画像操作モデルにおいて必須成分であると考えられる。
このような刺激的な観察により、強力な視覚言語モデルとコントラッシブなセマンティックエンコーダによって提供されるセマンティック特徴に基づいて、UniWorldという統合された生成フレームワークを提案する。
その結果、画像編集ベンチマークにおいて、BAGELのデータを1%しか使用せず、常にBAGELよりも優れる強力な統一モデルを構築した。
UniWorldはまた、競合する画像理解と生成能力を維持し、複数の画像認識タスクで強力なパフォーマンスを達成する。
モデルウェイト、トレーニングと評価スクリプト、データセットなど、当社のモデルを完全にオープンソースにしています。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - GPT4Image: Large Pre-trained Models Help Vision Models Learn Better on Perception Task [47.1857510710807]
我々はGPT4Imageと呼ばれる新しい学習フレームワークを提案し、CNNやViTがより良い表現を学ぶのに役立つ大規模な事前学習モデルの知識を抽出する。
本研究では,様々な視覚認知タスクにおける提案アルゴリズムの有効性を検証するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。