論文の概要: Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2605.21573v1
- Date: Wed, 20 May 2026 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.945643
- Title: Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models
- Title(参考訳): Lens:基礎的なテキスト・画像モデルのトレーニング効率を再考する
- Authors: Dong Chen, Fangyun Wei, Ziyu Wan, Dongdong Chen, Jiawei Zhang, Jinjing Zhao, Sirui Zhang, Yang Yue, Zhiyang Liang, Baining Guo, Chong Luo, Jianmin Bao, Ji Li, Lei Shi, Qinhong Yang, Xiuyu Wu, Xuelu Feng, Yan Lu, Yanchen Dong, Yitong Wang, Yunuo Chen,
- Abstract要約: 我々は,6B以上のパラメータを持つ最先端のモデルと競合する性能を実現するT2IモデルであるLensを紹介した。
例えば、Z-Imageが使用するトレーニング計算の19.3%しか必要としない。
Lensは1つのNVIDIA H100 GPU上で10242イメージを3.15秒で生成し、蒸留したターボバージョンは0.84秒で4ステップ生成を行う。
- 参考スコア(独自算出の注目度): 88.94987156920575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Lens, a 3.8B-parameter T2I model that achieves performance competitive with, and in several cases surpassing, state-of-the-art models with more than 6B parameters across various benchmarks, while requiring significantly less training compute. For example, Lens requires only about 19.3% of the training compute used by Z-Image. The training efficiency of Lens stems from two key strategies beyond its compact model size. First, we maximize data information density per training batch by (i) training on Lens-800M, a dataset of 800M densely captioned image-text pairs whose captions are generated by GPT-4.1 and contain approximately 109 words on average, providing richer semantic supervision than conventional short captions, and (ii) constructing each batch from images with multiple resolutions and diverse aspect ratios, thereby enlarging the effective visual coverage of each optimization step. Second, we improve convergence speed through careful architectural choices, including adopting a semantic VAE that provides better latent representations and employing a strong language encoder that accelerates optimization while enabling multilingual generalization from English-only training data. After pre-training, we apply RL with taxonomy-driven prompts (Lens-RL-8K) and structured reward rubrics to suppress artifacts and improve visual quality, a reasoner module with training-free system prompt search to better align user requests with the model, and distillation-based acceleration for 4-step inference. Through efficient training and systematic optimization, Lens generalizes to arbitrary aspect ratios from 1:2 to 2:1 and resolutions up to 1440^2, and supports prompts in several commonly used languages. Thanks to its compact size, Lens generates a 1024^2 image in 3.15 seconds on a single NVIDIA H100 GPU, while its distilled turbo version performs 4-step generation in 0.84 seconds.
- Abstract(参考訳): 我々は3.8BパラメータのT2IモデルであるLensを導入し、様々なベンチマークで6B以上のパラメータを持つ最先端のモデルに匹敵する性能を実現すると同時に、トレーニング計算を著しく少なくする。
例えば、Z-Imageが使用するトレーニング計算の19.3%しか必要としない。
レンズのトレーニング効率は、コンパクトなモデルサイズを超える2つの重要な戦略に由来する。
まず、トレーニングバッチあたりのデータ情報密度を最大化する。
(i)GPT-4.1により字幕が生成され、平均約109語を含む800万字字字幕イメージテキスト対のデータセットであるLens-800Mのトレーニング。
(i)複数の解像度と多様なアスペクト比を持つ画像から各バッチを構築することにより、各最適化ステップの効果的な視覚的カバレッジが向上する。
第二に、より優れた潜在表現を提供するセマンティックなVAEの採用や、英語のみの学習データから多言語的な一般化を実現しつつ最適化を加速する強力な言語エンコーダの採用など、アーキテクチャ上の慎重に選択することで収束速度を向上する。
事前学習後,RLに分類誘導プロンプト(Lens-RL-8K)と構造化報酬ルーブリックを適用し,人工物を抑制し,視覚的品質を向上させる。
効率的なトレーニングと体系的な最適化により、Lensは任意のアスペクト比を1:2から2:1に一般化し、解像度は1440^2までとし、いくつかの一般的な言語でプロンプトをサポートする。
コンパクトなサイズのため、Lensは1個のNVIDIA H100 GPU上で1024^2画像を3.15秒で生成し、蒸留したターボバージョンは0.84秒で4ステップ生成を行う。
関連論文リスト
- Nucleus-Image: Sparse MoE for Image Generation [5.769753912757775]
我々はGenEval, DPG-Bench, OneIG-Benchの先頭モデルを超えるテキスト・画像生成モデルを提案する。
Nucleus-Imageはスパース・ミックス・オブ・エキスパート(MoE)拡散変圧器アーキテクチャを採用している。
我々は,700万枚の画像にまたがる1.5Bの高品質トレーニングペアからなる大規模トレーニングコーパスを構築した。
論文 参考訳(メタデータ) (2026-04-14T00:43:23Z) - TernaryCLIP: Efficiently Compressing Vision-Language Models with Ternary Weights and Distilled Knowledge [23.707347449137895]
TernaryCLIPは、CLIPの視覚とテキストエンコーダの接続重みを3次フォーマットに変換する軽量フレームワークである。
本研究は,大規模マルチモーダルモデルの極端量子化の実現可能性を強調し,資源制約されたデバイスへの効果的かつ効率的な展開を支援する。
論文 参考訳(メタデータ) (2025-10-23T14:53:32Z) - FG-CLIP: Fine-Grained Visual and Textual Alignment [3.830067625507938]
本稿では,3つの重要なイノベーションを通じて微細な理解を深めるファイングラインドCLIPを提案する。
我々は、大容量マルチモーダルモデルを用いて、世界レベルのセマンティックディテールをキャプチャするために、160億の長いキャプションイメージペアを生成する。
我々は、高品質な領域固有のアノテーションと、きめ細かい負のサンプルを統合することで、FinHARDと呼ばれる包括的データセットを構築した。
論文 参考訳(メタデータ) (2025-05-08T09:06:53Z) - Pretrained Image-Text Models are Secretly Video Captioners [38.66202065611397]
画像ベースモデルにより、複数の特殊映像キャプションシステムよりも優れた性能が得られることが判明した。
適応モデルでは,MSRVTTとMSVDでは2位,VATEXでは3位であった。
資源最適化の観点から、このビデオキャプション研究は、モデルスケールの最適化、データ効率の最大化、強化学習の導入の3つの基本的な要素に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-19T01:53:03Z) - Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models [111.97026994761254]
Mixture-of-Transformer (MoT) はスパースマルチモーダルトランスアーキテクチャである。
MoTはモデルの非埋め込みパラメータをモダリティで分離する。
複数の設定とモデルスケールでMoTを評価する。
論文 参考訳(メタデータ) (2024-11-07T18:59:06Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。