論文の概要: UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
- arxiv url: http://arxiv.org/abs/2506.03147v2
- Date: Wed, 04 Jun 2025 14:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.565522
- Title: UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
- Title(参考訳): UniWorld: 統一された視覚理解と生成のための高分解能セマンティックエンコーダ
- Authors: Bin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan,
- Abstract要約: GPT-4o画像モデルでは、包括的イメージ認識と操作の高度な機能を示す。
強力な言語モデルから抽出された意味的特徴に基づいて構築された統合生成フレームワークUniWorldを提案する。
- 参考スコア(独自算出の注目度): 14.95468978198402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although existing unified models achieve strong performance in vision-language understanding and text-to-image generation, they remain limited in addressing image perception and manipulation -- capabilities increasingly demanded in practical applications. Recently, OpenAI introduced the powerful GPT-4o-Image model, which showcases advanced capabilities in comprehensive image perception and manipulation, sparking widespread interest. Through carefully designed experiments, we observe that GPT-4o-Image likely relies on semantic encoders rather than VAEs for feature extraction, despite VAEs being commonly regarded as crucial for image manipulation tasks. Inspired by this insight, we propose UniWorld, a unified generative framework built upon semantic features extracted from powerful multimodal large language models and contrastive semantic encoders. Using only 2.7M training data, UniWorld achieves impressive performance across diverse tasks, including image understanding, generation, manipulation, and perception. We fully open-source the UniWorld framework, including model weights, training and evaluation scripts, and datasets to promote reproducibility and further research.
- Abstract(参考訳): 既存の統一モデルは、視覚言語理解とテキスト・ツー・イメージ生成において強力なパフォーマンスを達成するが、現実的なアプリケーションでますます要求される機能であるイメージ認識と操作に対処することには限界がある。
最近、OpenAIは強力なGPT-4oイメージモデルを導入し、包括的イメージ認識と操作の高度な能力を示し、幅広い関心を喚起した。
慎重に設計された実験を通して、GAT-4o-画像は、VAEが画像操作に不可欠であるとみなされるにもかかわらず、特徴抽出にVAEよりもセマンティックエンコーダに依存している可能性が高いことが観察された。
この知見にインスパイアされたUniWorldは、強力なマルチモーダル大言語モデルとコントラスト的意味エンコーダから抽出された意味的特徴に基づいて構築された統一的な生成フレームワークである。
たった2.7Mのトレーニングデータを使用して、UniWorldは画像理解、生成、操作、知覚を含む様々なタスクで素晴らしいパフォーマンスを達成している。
再現性とさらなる研究を促進するために,モデルウェイト,トレーニングおよび評価スクリプト,データセットなどを含むUniWorldフレームワークをオープンソースとして公開しています。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - GPT4Image: Large Pre-trained Models Help Vision Models Learn Better on Perception Task [47.1857510710807]
我々はGPT4Imageと呼ばれる新しい学習フレームワークを提案し、CNNやViTがより良い表現を学ぶのに役立つ大規模な事前学習モデルの知識を抽出する。
本研究では,様々な視覚認知タスクにおける提案アルゴリズムの有効性を検証するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。