Fugu-MT 論文翻訳(概要): UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

論文の概要: UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

arxiv url: http://arxiv.org/abs/2506.03147v3
Date: Thu, 05 Jun 2025 16:41:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 14:14:43.177375
Title: UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
Title（参考訳）: UniWorld-V1: 統一視覚理解・生成のための高分解能セマンティックエンコーダ
Authors: Bin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan,
Abstract要約: OpenAIは強力なGPT-4oイメージモデルを導入した。この知見にインスパイアされたUniWorld-V1は、強力な大言語モデルから抽出された意味的特徴に基づいて構築された統合生成フレームワークである。
参考スコア（独自算出の注目度）: 14.95468978198402
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although existing unified models achieve strong performance in vision-language understanding and text-to-image generation, they remain limited in addressing image perception and manipulation -- capabilities increasingly demanded in practical applications. Recently, OpenAI introduced the powerful GPT-4o-Image model, which showcases advanced capabilities in comprehensive image perception and manipulation, sparking widespread interest. Through carefully designed experiments, we observe that GPT-4o-Image likely relies on semantic encoders rather than VAEs for feature extraction, despite VAEs being commonly regarded as crucial for image manipulation tasks. Inspired by this insight, we propose UniWorld-V1, a unified generative framework built upon semantic features extracted from powerful multimodal large language models and contrastive semantic encoders. Using only 2.7M training data, UniWorld-V1 achieves impressive performance across diverse tasks, including image understanding, generation, manipulation, and perception. We fully open-source the UniWorld-V1 framework, including model weights, training and evaluation scripts, and datasets to promote reproducibility and further research.
Abstract（参考訳）: 既存の統一モデルは、視覚言語理解とテキスト・ツー・イメージ生成において強力なパフォーマンスを達成するが、現実的なアプリケーションでますます要求される機能であるイメージ認識と操作に対処することには限界がある。最近、OpenAIは強力なGPT-4oイメージモデルを導入し、包括的イメージ認識と操作の高度な能力を示し、幅広い関心を喚起した。慎重に設計された実験を通して、GAT-4o-画像は、VAEが画像操作に不可欠であるとみなされるにもかかわらず、特徴抽出にVAEよりもセマンティックエンコーダに依存している可能性が高いことが観察された。この知見にインスパイアされたUniWorld-V1は、強力なマルチモーダル大言語モデルとコントラスト的セマンティックエンコーダから抽出されたセマンティック機能に基づいて構築された統合生成フレームワークである。 UniWorld-V1は2.7Mのトレーニングデータしか使用せず、画像理解、生成、操作、知覚を含む様々なタスクにまたがる優れたパフォーマンスを実現している。再現性とさらなる研究を促進するために、モデルウェイト、トレーニングおよび評価スクリプト、データセットを含むUniWorld-V1フレームワークをオープンソースとして公開しています。

関連論文リスト

Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains [31.828341309787042]
視覚言語モデル(VLM)は、単一画像タスクにおいて顕著な成功を収める。現実のシナリオでは複雑なマルチイメージの入力が伴うことが多く、パフォーマンスが著しく低下する。マルチイメージシナリオにおけるVLMの知覚、理解、推論能力を高める新しいパラダイムであるFocus-Centric Visual Chainを提案する。
論文参考訳（メタデータ） (2025-04-28T19:02:18Z)
Semantics Disentanglement and Composition for Versatile Codec toward both Human-eye Perception and Machine Vision Task [47.7670923159071]
本研究は,人間の目知覚と機械視タスクを同時に強化する革新的セマンティックス Disentanglement と COmposition versatile (DISCOVER) を導入する。このアプローチはタスク毎のラベルの集合をマルチモーダルな大モデルで導き出し、グラウンドモデルを用いて正確なローカライズを行い、エンコーダ側の画像成分の包括的理解とアンタングル化を可能にする。復号段階では、これらの符号化されたコンポーネントを生成モデルから先行して活用することにより、画像の総合的な再構成を実現し、人間の視覚知覚とマシンベースの分析タスクの両方のパフォーマンスを最適化する。
論文参考訳（メタデータ） (2024-12-24T04:32:36Z)
Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [49.04935506942202]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。マルチモーダル生成PreTraining (mGPT) を初期化することにより、デコーダのみの自己回帰(AR)モデルが、現代の拡散モデルに匹敵する画像生成性能を実現できることを示す。
論文参考訳（メタデータ） (2024-08-05T17:46:53Z)
INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文参考訳（メタデータ） (2024-07-23T06:02:30Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。 GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文参考訳（メタデータ） (2024-03-14T13:47:41Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。 GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文参考訳（メタデータ） (2023-12-14T17:26:00Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
GPT4Image: Large Pre-trained Models Help Vision Models Learn Better on Perception Task [47.1857510710807]
我々はGPT4Imageと呼ばれる新しい学習フレームワークを提案し、CNNやViTがより良い表現を学ぶのに役立つ大規模な事前学習モデルの知識を抽出する。本研究では,様々な視覚認知タスクにおける提案アルゴリズムの有効性を検証するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2023-06-01T14:02:45Z)
The Devil is in the Frequency: Geminated Gestalt Autoencoder for Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文参考訳（メタデータ） (2022-04-18T09:22:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。