論文の概要: GreenStableYolo: Optimizing Inference Time and Image Quality of Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2407.14982v1
- Date: Sat, 20 Jul 2024 21:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 19:48:22.015231
- Title: GreenStableYolo: Optimizing Inference Time and Image Quality of Text-to-Image Generation
- Title(参考訳): GreenStableYolo: テキスト・ツー・イメージ生成の推論時間と画質を最適化する
- Authors: Jingzhi Gong, Sisi Li, Giordano d'Aloisio, Zishuo Ding, Yulong Ye, William B. Langdon, Federica Sarro,
- Abstract要約: GreenStableYoloはパラメータを改善し、Stable DiffusionがGPU推論時間を短縮し、NSGA-IIとYoloを使用して画像生成品質を向上させるように促す。
画像品質はStableYolo(画像品質のみを考慮)に比べ,画像品質のトレードオフが比較的小さい(18%)にもかかわらず,GreenStableYoloは推論時間(266%)を大幅に短縮し,526%の高ボリュームを実現している。
- 参考スコア(独自算出の注目度): 11.098503592431278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tuning the parameters and prompts for improving AI-based text-to-image generation has remained a substantial yet unaddressed challenge. Hence we introduce GreenStableYolo, which improves the parameters and prompts for Stable Diffusion to both reduce GPU inference time and increase image generation quality using NSGA-II and Yolo. Our experiments show that despite a relatively slight trade-off (18%) in image quality compared to StableYolo (which only considers image quality), GreenStableYolo achieves a substantial reduction in inference time (266% less) and a 526% higher hypervolume, thereby advancing the state-of-the-art for text-to-image generation.
- Abstract(参考訳): AIベースのテキスト・ツー・イメージ生成を改善するためのパラメータとプロンプトのチューニングは、依然として大きな課題であり続けている。
そこで、GreenStableYoloを導入し、パラメータを改善し、安定拡散によりGPUの推論時間を短縮し、NSGA-IIとYoloを用いた画像生成品質を向上させる。
画像品質はStableYolo(画像品質のみを考慮)に比べ,画像品質のトレードオフが比較的小さい(38%)にもかかわらず,GreenStableYoloは推論時間の大幅な削減(266%)と526%の高ボリュームを実現し,テキスト・画像生成の最先端化を実現している。
関連論文リスト
- DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized
Diffusion Models [46.58122934173729]
textbftextitDiffuseKronAは、対象駆動型テキスト・トゥ・イメージ(T2I)生成モデルのための製品ベースの適応モジュールである。
LoRA-DreamBoothとDreamBoothをそれぞれ35%、99.947%削減する。
LoRA-DreamBoothに匹敵する結果で最大50%の削減が達成できる。
論文 参考訳(メタデータ) (2024-02-27T11:05:34Z) - Diffusion Model Compression for Image-to-Image Translation [25.46012859377184]
拡散型I2Iモデルに適した新しい圧縮手法を提案する。
I2Iモデルの画像条件が既に画像構造に関する豊富な情報を提供するという観測に基づいて、モデルサイズと遅延を低減するための驚くほど単純で効果的なアプローチを開発する。
提案手法は, モデルフットプリントの39.2%, 56.4%, 39.2%, 81.4%, 68.7%, および31.1%の遅延をそれぞれInstructPix2Pix, StableSR, ControlNetに減少させることで, 良好な出力品質を実現する。
論文 参考訳(メタデータ) (2024-01-31T02:25:52Z) - Faster Projected GAN: Towards Faster Few-Shot Image Generation [10.068622488926172]
本稿では,プロジェクテッドGANに基づく高速プロジェクテッドGANと呼ばれる改良型GANネットワークモデルを提案する。
深度分離可能な畳み込み(DSC)を導入することにより、投影されたGANのパラメータの数を削減し、トレーニング速度を加速し、メモリを節約する。
論文 参考訳(メタデータ) (2024-01-23T07:55:27Z) - Q-Refine: A Perceptual Quality Refiner for AI-Generated Image [85.89840673640028]
Q-Refineという品質改善手法を提案する。
画像品質評価(IQA)メトリクスを使用して、初めて精錬プロセスをガイドする。
忠実度と美的品質の両方からAIGIを最適化するための一般的な精錬機となる。
論文 参考訳(メタデータ) (2024-01-02T09:11:23Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Enhanced Sharp-GAN For Histopathology Image Synthesis [63.845552349914186]
病理組織像合成は、正確ながん検出のためのディープラーニングアプローチの訓練において、データ不足の問題に対処することを目的としている。
核トポロジと輪郭正則化を用いて合成画像の品質を向上させる新しい手法を提案する。
提案手法は、Sharp-GANを2つのデータセット上の4つの画像品質指標すべてで上回る。
論文 参考訳(メタデータ) (2023-01-24T17:54:01Z) - Accelerating Score-based Generative Models for High-Resolution Image
Synthesis [42.076244561541706]
スコアベース生成モデル(SGM)は、最近、将来性のある生成モデルのクラスとして登場した。
本研究では,SGMによる高分解能発生の加速について考察する。
本稿では,空間および周波数領域の構造的先行性を活用することによって,TDAS(Target Distribution Smpling Aware)手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T17:41:14Z) - Projected GANs Converge Faster [50.23237734403834]
GAN(Generative Adversarial Networks)は高品質な画像を生成するが、訓練は難しい。
生成したサンプルと実際のサンプルを固定された事前訓練された特徴空間に投影することで、これらの問題に大きく取り組みます。
我々の投影GANは画像品質、サンプル効率、収束速度を改善する。
論文 参考訳(メタデータ) (2021-11-01T15:11:01Z) - Dual Contrastive Loss and Attention for GANs [82.713118646294]
この損失により、識別器はより一般化され、識別可能な表現を学習し、生成をインセンティブ化することを示す。
最近の最先端モデルでは使われていないものの、画像生成にはまだ重要なモジュールとして注目が集まっている。
これらの救済策の強みを組み合わせることで、Fr'echet Inception Distance(FID)をいくつかのベンチマークデータセットで少なくとも17.5%改善します。
論文 参考訳(メタデータ) (2021-03-31T01:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。