論文の概要: Qwen-Image-VAE-2.0 Technical Report
- arxiv url: http://arxiv.org/abs/2605.13565v1
- Date: Wed, 13 May 2026 14:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.093477
- Title: Qwen-Image-VAE-2.0 Technical Report
- Title(参考訳): Qwen-Image-VAE-2.0テクニカルレポート
- Authors: Zekai Zhang, Deqing Li, Kuan Cao, Yujia Wu, Chenfei Wu, Yu Wu, Liang Peng, Hao Meng, Jiahao Li, Jie Zhang, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Shengming Yin, Tianhe Wu, Xiao Xu, Xiaoyue Chen, Yan Shu, Yanran Zhang, Yilei Chen, Yixian Xu, Yuxiang Chen, Zhendong Wang, Zihao Liu, Zikai Zhou, Yiliang Gu, Yi Wang, Xiaoxiao Xu, Lin Qu,
- Abstract要約: Qwen-Image-VAE-2.0, a suite of High-compression Variational Autoencoders (VAEs)について述べる。
Qwen-Image-VAE-2.0は、汎用ドメインとテキストリッチシナリオの両方において、高い圧縮比で例外的な機能を示す、最先端の再構築性能を実現する。
- 参考スコア(独自算出の注目度): 62.24146940157627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Qwen-Image-VAE-2.0, a suite of high-compression Variational Autoencoders (VAEs) that achieve significant advances in both reconstruction fidelity and diffusability. To address the reconstruction bottlenecks of high compression, we adopt an improved architecture featuring Global Skip Connections (GSC) and expanded latent channels. Moreover, we scale training to billions of images and incorporate a synthetic rendering engine to improve performance in text-rich scenarios. To tackle the convergence challenges of high-dimensional latent space, we implement an enhanced semantic alignment strategy to make the latent space highly amenable to diffusion modeling. To optimize computational efficiency, we leverage an asymmetric and attention-free encoder-decoder backbone to minimize encoding overhead. We present a comprehensive evaluation of Qwen-Image-VAE-2.0 on public reconstruction benchmarks. To evaluate performance in text-rich scenarios, we propose OmniDoc-TokenBench, a new benchmark comprising a diverse collection of real-world documents coupled with specialized OCR-based evaluation metrics. Qwen-Image-VAE-2.0 achieves state-of-the-art reconstruction performance, demonstrating exceptional capabilities in both general domains and text-rich scenarios at high compression ratio. Furthermore, downstream DiT experiments reveal our models possess superior diffusability, significantly accelerating convergence compared to existing high-compression baselines. These establish Qwen-Image-VAE-2.0 as a leading model with high compression, superior reconstruction, and exceptional diffusability.
- Abstract(参考訳): 提案するQwen-Image-VAE-2.0は,高圧縮変分オートエンコーダ(VAE)のスイートで,再現性と拡散性の両方において大きな進歩を達成している。
高圧縮の再構築ボトルネックに対処するために,Global Skip Connections (GSC) と拡張潜在チャネルを備えた改良型アーキテクチャを採用する。
さらに、何十億もの画像にトレーニングを拡大し、テキストリッチシナリオのパフォーマンス向上のために合成レンダリングエンジンを組み込んだ。
高次元ラテント空間の収束問題に対処するため、拡張されたセマンティックアライメント戦略を実装し、ラテント空間を拡散モデリングに利用できるようにする。
計算効率を最適化するために,非対称かつ無注意なエンコーダ・デコーダのバックボーンを活用し,符号化オーバーヘッドを最小限に抑える。
本稿では,Qwen-Image-VAE-2.0の総合的な評価を行う。
OmniDoc-TokenBench, OmniDoc-TokenBenchを提案する。OmniDoc-TokenBenchは,OCRベースの評価指標と組み合わせた,多種多様な実世界の文書群からなる新しいベンチマークである。
Qwen-Image-VAE-2.0は、汎用ドメインとテキストリッチシナリオの両方において、高い圧縮比で例外的な機能を示す、最先端の再構築性能を実現する。
さらに、下流でのDiT実験により、我々のモデルは既存の高圧縮ベースラインに比べて非常に高い拡散性を有し、収束を加速することが明らかとなった。
これらはQwen-Image-VAE-2.0を高い圧縮、優れた再構成、例外的な拡散性を持つ主要なモデルとして確立している。
関連論文リスト
- LSRM: High-Fidelity Object-Centric Reconstruction via Scaled Context Windows [10.300202521638274]
本研究では,大規模スパース再構成モデルを導入し,拡張型コンテクストウィンドウがフィードフォワード3D再構成に与える影響について検討する。
アクティブなオブジェクトや画像トークンの数を大幅に増やすことで、コンテキストウィンドウを拡大することで、このギャップを著しく狭め、高忠実度な3Dオブジェクト再構成と逆レンダリングを可能にします。
論文 参考訳(メタデータ) (2026-04-06T21:21:12Z) - Towards Any-Quality Image Segmentation via Generative and Adaptive Latent Space Enhancement [27.566673104431725]
Segment Anything Models (SAM) は例外的なゼロショットセグメンテーション性能で知られている。
しかし、その性能は著しく劣化した低品質の画像に対して著しく低下し、現実のシナリオではその効果が制限される。
低画質画像におけるロバスト性を高めるために生成遅延空間拡張を利用するGleSAM++を提案する。
論文 参考訳(メタデータ) (2026-01-05T11:28:58Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion [28.61304513668606]
ResULICは残留誘導型超低レート画像圧縮システムである。
残差信号は意味検索と拡散に基づく生成プロセスの両方に組み込む。
最先端拡散法に比べて客観的・主観的性能に優れる。
論文 参考訳(メタデータ) (2025-05-13T06:51:23Z) - IQPFR: An Image Quality Prior for Blind Face Restoration and Beyond [56.99331967165238]
Blind Face Restoration (BFR)は、劣化した低品質(LQ)の顔画像を高品質(HQ)の出力に再構成する課題に対処する。
本研究では,非参照画像品質評価(NR-IQA)モデルから得られた画像品質優先(IQP)を組み込んだ新しいフレームワークを提案する。
提案手法は,複数のベンチマークにおいて最先端技術より優れている。
論文 参考訳(メタデータ) (2025-03-12T11:39:51Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。