論文の概要: Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2502.08690v1
- Date: Wed, 12 Feb 2025 15:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 20:05:34.963406
- Title: Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation
- Title(参考訳): Skrr: メモリ効率の良いテキスト・ツー・イメージ生成のためのスリップ・リユーステキストエンコーダ層
- Authors: Hoigi Seo, Wongi Jeong, Jae-sun Seo, Se Young Chun,
- Abstract要約: テキスト・トゥ・イメージ(T2I)拡散モデルにおける大規模テキストエンコーダは例外的な性能を示した。
全推測時間と浮動小数点演算(FLOP)への最小限の貢献にもかかわらず、テキストエンコーダはメモリ使用量を大幅に増加させる。
我々は,T2I拡散モデルにおけるテキストエンコーダに特化して設計された,シンプルで効果的なプルーニング戦略であるSkrrとSkrrを提案する。
- 参考スコア(独自算出の注目度): 13.310412868082832
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large-scale text encoders in text-to-image (T2I) diffusion models have demonstrated exceptional performance in generating high-quality images from textual prompts. Unlike denoising modules that rely on multiple iterative steps, text encoders require only a single forward pass to produce text embeddings. However, despite their minimal contribution to total inference time and floating-point operations (FLOPs), text encoders demand significantly higher memory usage, up to eight times more than denoising modules. To address this inefficiency, we propose Skip and Re-use layers (Skrr), a simple yet effective pruning strategy specifically designed for text encoders in T2I diffusion models. Skrr exploits the inherent redundancy in transformer blocks by selectively skipping or reusing certain layers in a manner tailored for T2I tasks, thereby reducing memory consumption without compromising performance. Extensive experiments demonstrate that Skrr maintains image quality comparable to the original model even under high sparsity levels, outperforming existing blockwise pruning methods. Furthermore, Skrr achieves state-of-the-art memory efficiency while preserving performance across multiple evaluation metrics, including the FID, CLIP, DreamSim, and GenEval scores.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルにおける大規模テキストエンコーダは、テキスト・プロンプトから高品質な画像を生成する際、例外的な性能を示した。
複数の反復ステップに依存するデノイングモジュールとは異なり、テキストエンコーダはテキスト埋め込みを生成するために1つのフォワードパスしか必要としない。
しかし、合計推測時間と浮動小数点演算(FLOP)への最小限の貢献にもかかわらず、テキストエンコーダはモジュールの8倍のメモリ使用量を要求する。
この非効率性に対処するために、T2I拡散モデルにおけるテキストエンコーダに特化して設計されたシンプルで効果的なプルーニング戦略であるSkrrとSkrrを提案する。
Skrrは、T2Iタスクに適した方法で特定のレイヤを選択的にスキップまたは再利用することで、トランスフォーマーブロックの固有の冗長性を悪用し、パフォーマンスを損なうことなくメモリ消費を減らす。
広範囲な実験により、Skrrは元のモデルに匹敵する画質を維持しており、既存のブロックワイズプルーニング法よりも優れていることが示された。
さらに、Skrrは、FID、CLIP、DreamSim、GenEvalスコアを含む複数の評価指標のパフォーマンスを維持しながら、最先端のメモリ効率を達成する。
関連論文リスト
- Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - DDT: Decoupled Diffusion Transformer [51.84206763079382]
拡散変換器はノイズの多い入力を符号化し、意味成分を抽出し、同じモジュールで高い周波数をデコードする。
textbfcolorddtDecoupled textbfcolorddtTransformer(textbfcolorddtDDT)
textbfcolorddtTransformer(textbfcolorddtDDT)
textbfcolorddtTransformer(textbfcolorddtDDT)
論文 参考訳(メタデータ) (2025-04-08T07:17:45Z) - FlowTok: Flowing Seamlessly Across Text and Image Tokens [20.629139911638646]
FlowTokは、コンパクトな1Dトークン表現に画像をエンコードすることで、テキストとイメージをシームレスに流れるフレームワークである。
256の解像度で遅延空間のサイズを3.3倍に減らし、複雑な条件付け機構やノイズスケジューリングを必要としない。
コンパクトな1Dトークンを中心にした合理化アーキテクチャにより、FlowTokはメモリ効率が高く、トレーニングリソースが大幅に少なくなり、より高速なサンプリング速度を実現し、最先端のモデルに匹敵するパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-03-13T18:06:13Z) - TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder [13.695128139074285]
本稿では、テキストプロンプトによる制御可能な画像の作成を可能にする、オーバーフィッティングの軽減によるワンショットパーソナライゼーションの課題に対処する。
パーソナライズ性能を高めるための3つの重要な手法を紹介する。(1)機能障害の促進と過剰適合の緩和のための拡張トークン、(2)言語ドリフトの低減と多様なプロンプト間の一般化性向上のための知識保存損失、(3)効率的なトレーニングのためのSNR重み付きサンプリング。
論文 参考訳(メタデータ) (2024-09-12T17:47:51Z) - HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size
HD Images [56.17404812357676]
テキストと画像の合成に使用される生成モデルである安定拡散は、様々なサイズの画像を生成する際にしばしば構成問題に遭遇する。
そこで我々は,任意の大きさの画像を効率よく生成するために,Any-Size-Diffusion (ASD) という2段階のパイプラインを提案する。
ASDは任意のサイズの画像を生成することができ、従来のタイル付きアルゴリズムと比較して推論時間を2倍削減できることを示す。
論文 参考訳(メタデータ) (2023-08-31T09:27:56Z) - DocDiff: Document Enhancement via Residual Diffusion Models [7.972081359533047]
文書強調問題に特化して設計された拡散型フレームワークであるDocDiffを提案する。
DocDiffは2つのモジュールで構成されている: 粗い予測器(CP)と高周波数残差リファインメント(HRR)モジュール。
事前学習したDocDiffのHRRモジュールは,4.17Mのパラメータしか持たない,プラグアンドプレイで使用可能である。
論文 参考訳(メタデータ) (2023-05-06T01:41:10Z) - LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale
Image-Text Retrieval [71.01982683581572]
従来の高密度検索パラダイムは、デュアルストリームエンコーダを用いて画像やテキストを高密度表現に符号化することに依存している。
本稿では,語彙空間における疎表現を画像やテキストに対して学習する語彙重み付けパラダイムを提案する。
重要度を意識した辞書表現を学習する新しい事前学習フレームワークを提案する。
我々のフレームワークは、検索速度5.5221.3倍、インデックス記憶メモリ13.248.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-02-06T16:24:41Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Learning to Summarize Long Texts with Memory Compression and Transfer [3.5407857489235206]
本稿では,階層的リカレントニューラルネットワークに基づくエンコーダデコーダアーキテクチャのためのメモリ・ツー・メモリ機構であるMem2Memを紹介する。
我々のメモリ正規化は、よりコンパクトな文表現セットに符号化された入力項目を圧縮する。
論文 参考訳(メタデータ) (2020-10-21T21:45:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。