論文の概要: OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation
- arxiv url: http://arxiv.org/abs/2601.15369v1
- Date: Wed, 21 Jan 2026 18:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.378899
- Title: OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation
- Title(参考訳): OpenVision 3: 理解と生成の両方のための統一ビジュアルエンコーダのファミリー
- Authors: Letian Zhang, Sucheng Ren, Yanqing Liu, Xianhang Li, Zeyu Wang, Yuyin Zhou, Huaxiu Yao, Zeyu Zheng, Weili Nie, Guilin Liu, Zhiding Yu, Cihang Xie,
- Abstract要約: 本稿では,単一で統一された視覚表現を学習する,OpenVision 3という高度な視覚エンコーダ群について述べる。
VAE圧縮されたイメージラテントをViTエンコーダに供給し、2つの補完的な役割をサポートするために出力をトレーニングします。
マルチモーダル理解のために、エンコーダをLLaVA-1.5フレームワークにプラグインします。
- 参考スコア(独自算出の注目度): 101.82480298904225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a family of advanced vision encoder, named OpenVision 3, that learns a single, unified visual representation that can serve both image understanding and image generation. Our core architecture is simple: we feed VAE-compressed image latents to a ViT encoder and train its output to support two complementary roles. First, the encoder output is passed to the ViT-VAE decoder to reconstruct the original image, encouraging the representation to capture generative structure. Second, the same representation is optimized with contrastive learning and image-captioning objectives, strengthening semantic features. By jointly optimizing reconstruction- and semantics-driven signals in a shared latent space, the encoder learns representations that synergize and generalize well across both regimes. We validate this unified design through extensive downstream evaluations with the encoder frozen. For multimodal understanding, we plug the encoder into the LLaVA-1.5 framework: it performs comparably with a standard CLIP vision encoder (e.g., 62.4 vs 62.2 on SeedBench, and 83.7 vs 82.9 on POPE). For generation, we test it under the RAE framework: ours substantially surpasses the standard CLIP-based encoder (e.g., gFID: 1.89 vs 2.54 on ImageNet). We hope this work can spur future research on unified modeling.
- Abstract(参考訳): 本稿では、画像理解と画像生成の両方に役立つ単一の統一された視覚表現を学習する、OpenVision 3という高度な視覚エンコーダのファミリーについて述べる。
VAE圧縮されたイメージラテントをViTエンコーダに供給し、2つの補完的な役割をサポートするために出力をトレーニングします。
まず、エンコーダ出力をViT-VAEデコーダに渡して元の画像を再構成し、生成構造をキャプチャする表現を奨励する。
第二に、同じ表現は対照的な学習と画像のカプセル化の目的に最適化され、意味的特徴が強化される。
共振器は共振器空間における再構成とセマンティクス駆動の信号の共振を最適化することにより、両レシスタント間で相乗化および一般化を行う表現を学習する。
我々は、エンコーダを凍結した下流評価により、この統一設計を検証する。
標準的なCLIPビジョンエンコーダ(SeedBenchでは62.4対62.2、POPEでは83.7対82.9)と互換性がある。
当社は、標準的なCLIPベースのエンコーダ(例えば、ImageNetのgFID: 1.89対2.54)を大幅に上回っています。
この研究が統合モデリングの今後の研究を刺激することを期待している。
関連論文リスト
- VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - VUGEN: Visual Understanding priors for GENeration [18.840804846528865]
VUGENは、VLMの事前訓練された視覚的理解を、効率的で高品質な画像生成に明示的に活用する新しいフレームワークである。
我々のアプローチは、まずVLMのネイティブビジョンエンコーダの高次元潜在空間を、低次元、トラクタブルな分布に変換する。
専用のピクセルデコーダは、生成されたラテントをイメージ空間にマッピングする。
論文 参考訳(メタデータ) (2025-10-08T00:04:47Z) - Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models [37.59115132356727]
本稿では,画像生成における遅延拡散モデルのトークン化として,事前学習したビジュアルエンコーダの整合性を提案する。
ImageNet 256$times$256では、トークン化器は拡散モデルの収束を加速し、64時間以内で1.90gFIDに達する。
提案手法は単純で拡張性があり,連続トークン化設計のための意味論的基盤となるパラダイムを確立している。
論文 参考訳(メタデータ) (2025-09-29T17:57:39Z) - Unified Multimodal Model as Auto-Encoder [69.38946823657592]
本稿では,テキストに画像を圧縮するエンコーダ(I2T)と,そのテキストから画像を再構成するデコーダ(T2I)の理解に関するパラダイムを紹介する。
我々の経験的結果は、理解は生成を大幅に促進し(GenEvalで検証されている)、生成は、特にきめ細かい視覚知覚を強化することを示唆している。
論文 参考訳(メタデータ) (2025-09-11T17:57:59Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval [117.15862403330121]
共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
論文 参考訳(メタデータ) (2022-03-10T16:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。