論文の概要: Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2502.08690v1
- Date: Wed, 12 Feb 2025 15:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:50.745397
- Title: Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation
- Title(参考訳): Skrr: メモリ効率の良いテキスト・ツー・イメージ生成のためのスリップ・リユーステキストエンコーダ層
- Authors: Hoigi Seo, Wongi Jeong, Jae-sun Seo, Se Young Chun,
- Abstract要約: テキスト・トゥ・イメージ(T2I)拡散モデルにおける大規模テキストエンコーダは例外的な性能を示した。
全推測時間と浮動小数点演算(FLOP)への最小限の貢献にもかかわらず、テキストエンコーダはメモリ使用量を大幅に増加させる。
我々は,T2I拡散モデルにおけるテキストエンコーダに特化して設計された,シンプルで効果的なプルーニング戦略であるSkrrとSkrrを提案する。
- 参考スコア(独自算出の注目度): 13.310412868082832
- License:
- Abstract: Large-scale text encoders in text-to-image (T2I) diffusion models have demonstrated exceptional performance in generating high-quality images from textual prompts. Unlike denoising modules that rely on multiple iterative steps, text encoders require only a single forward pass to produce text embeddings. However, despite their minimal contribution to total inference time and floating-point operations (FLOPs), text encoders demand significantly higher memory usage, up to eight times more than denoising modules. To address this inefficiency, we propose Skip and Re-use layers (Skrr), a simple yet effective pruning strategy specifically designed for text encoders in T2I diffusion models. Skrr exploits the inherent redundancy in transformer blocks by selectively skipping or reusing certain layers in a manner tailored for T2I tasks, thereby reducing memory consumption without compromising performance. Extensive experiments demonstrate that Skrr maintains image quality comparable to the original model even under high sparsity levels, outperforming existing blockwise pruning methods. Furthermore, Skrr achieves state-of-the-art memory efficiency while preserving performance across multiple evaluation metrics, including the FID, CLIP, DreamSim, and GenEval scores.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルにおける大規模テキストエンコーダは、テキスト・プロンプトから高品質な画像を生成する際、例外的な性能を示した。
複数の反復ステップに依存するデノイングモジュールとは異なり、テキストエンコーダはテキスト埋め込みを生成するために1つのフォワードパスしか必要としない。
しかし、合計推測時間と浮動小数点演算(FLOP)への最小限の貢献にもかかわらず、テキストエンコーダはモジュールの8倍のメモリ使用量を要求する。
この非効率性に対処するために、T2I拡散モデルにおけるテキストエンコーダに特化して設計されたシンプルで効果的なプルーニング戦略であるSkrrとSkrrを提案する。
Skrrは、T2Iタスクに適した方法で特定のレイヤを選択的にスキップまたは再利用することで、トランスフォーマーブロックの固有の冗長性を悪用し、パフォーマンスを損なうことなくメモリ消費を減らす。
広範囲な実験により、Skrrは元のモデルに匹敵する画質を維持しており、既存のブロックワイズプルーニング法よりも優れていることが示された。
さらに、Skrrは、FID、CLIP、DreamSim、GenEvalスコアを含む複数の評価指標のパフォーマンスを維持しながら、最先端のメモリ効率を達成する。
関連論文リスト
- TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder [13.695128139074285]
本稿では、テキストプロンプトによる制御可能な画像の作成を可能にする、オーバーフィッティングの軽減によるワンショットパーソナライゼーションの課題に対処する。
パーソナライズ性能を高めるための3つの重要な手法を紹介する。(1)機能障害の促進と過剰適合の緩和のための拡張トークン、(2)言語ドリフトの低減と多様なプロンプト間の一般化性向上のための知識保存損失、(3)効率的なトレーニングのためのSNR重み付きサンプリング。
論文 参考訳(メタデータ) (2024-09-12T17:47:51Z) - HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size
HD Images [56.17404812357676]
テキストと画像の合成に使用される生成モデルである安定拡散は、様々なサイズの画像を生成する際にしばしば構成問題に遭遇する。
そこで我々は,任意の大きさの画像を効率よく生成するために,Any-Size-Diffusion (ASD) という2段階のパイプラインを提案する。
ASDは任意のサイズの画像を生成することができ、従来のタイル付きアルゴリズムと比較して推論時間を2倍削減できることを示す。
論文 参考訳(メタデータ) (2023-08-31T09:27:56Z) - DocDiff: Document Enhancement via Residual Diffusion Models [7.972081359533047]
文書強調問題に特化して設計された拡散型フレームワークであるDocDiffを提案する。
DocDiffは2つのモジュールで構成されている: 粗い予測器(CP)と高周波数残差リファインメント(HRR)モジュール。
事前学習したDocDiffのHRRモジュールは,4.17Mのパラメータしか持たない,プラグアンドプレイで使用可能である。
論文 参考訳(メタデータ) (2023-05-06T01:41:10Z) - LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale
Image-Text Retrieval [71.01982683581572]
従来の高密度検索パラダイムは、デュアルストリームエンコーダを用いて画像やテキストを高密度表現に符号化することに依存している。
本稿では,語彙空間における疎表現を画像やテキストに対して学習する語彙重み付けパラダイムを提案する。
重要度を意識した辞書表現を学習する新しい事前学習フレームワークを提案する。
我々のフレームワークは、検索速度5.5221.3倍、インデックス記憶メモリ13.248.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-02-06T16:24:41Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Rethinking the Paradigm of Content Constraints in Unpaired
Image-to-Image Translation [9.900050049833986]
本稿では,パッチレベルの特徴の潜在空間における表現的類似性を制約することにより,コンテンツ管理のシンプルかつ効率的な方法であるEnCoを提案する。
類似性関数に対しては、I2Iタスクで広く使われている対照的な損失ではなく、単純なMSE損失を用いる。
さらに, 識別者によるサンプリングにおける役割を再考し, ランダムサンプリングの代替として, DAG(Disdisnative attention-guided)パッチサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-11-20T04:39:57Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Learning to Summarize Long Texts with Memory Compression and Transfer [3.5407857489235206]
本稿では,階層的リカレントニューラルネットワークに基づくエンコーダデコーダアーキテクチャのためのメモリ・ツー・メモリ機構であるMem2Memを紹介する。
我々のメモリ正規化は、よりコンパクトな文表現セットに符号化された入力項目を圧縮する。
論文 参考訳(メタデータ) (2020-10-21T21:45:44Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。