論文の概要: Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.12042v1
- Date: Mon, 17 Jun 2024 19:22:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 00:07:10.992214
- Title: Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models
- Title(参考訳): すべてのプロンプトが等しくなるわけではない:テキストと画像の拡散モデルのプロンプトベースプルーニング
- Authors: Alireza Ganjdanesh, Reza Shirkavand, Shangqian Gao, Heng Huang,
- Abstract要約: 本稿では,テキスト・ツー・イメージ(T2I)拡散モデルのための新しいプロンプトベースのプルーニング手法であるAdaptive Prompt-Tailored Pruning (APTP)を紹介する。
APTPは入力テキストプロンプトに必要な容量を決定することを学び、それをアーキテクチャコードにルーティングする。
APTPはFID、CLIP、CMMDスコアの点でシングルモデルプルーニングベースラインを上回っている。
- 参考スコア(独自算出の注目度): 59.16287352266203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) diffusion models have demonstrated impressive image generation capabilities. Still, their computational intensity prohibits resource-constrained organizations from deploying T2I models after fine-tuning them on their internal target data. While pruning techniques offer a potential solution to reduce the computational burden of T2I models, static pruning methods use the same pruned model for all input prompts, overlooking the varying capacity requirements of different prompts. Dynamic pruning addresses this issue by utilizing a separate sub-network for each prompt, but it prevents batch parallelism on GPUs. To overcome these limitations, we introduce Adaptive Prompt-Tailored Pruning (APTP), a novel prompt-based pruning method designed for T2I diffusion models. Central to our approach is a prompt router model, which learns to determine the required capacity for an input text prompt and routes it to an architecture code, given a total desired compute budget for prompts. Each architecture code represents a specialized model tailored to the prompts assigned to it, and the number of codes is a hyperparameter. We train the prompt router and architecture codes using contrastive learning, ensuring that similar prompts are mapped to nearby codes. Further, we employ optimal transport to prevent the codes from collapsing into a single one. We demonstrate APTP's effectiveness by pruning Stable Diffusion (SD) V2.1 using CC3M and COCO as target datasets. APTP outperforms the single-model pruning baselines in terms of FID, CLIP, and CMMD scores. Our analysis of the clusters learned by APTP reveals they are semantically meaningful. We also show that APTP can automatically discover previously empirically found challenging prompts for SD, e.g., prompts for generating text images, assigning them to higher capacity codes.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは印象的な画像生成能力を示している。
それでも、その計算強度は、リソース制約のある組織がT2Iモデルを内部のターゲットデータに微調整した後に展開することを妨げている。
プルーニング技術は、T2Iモデルの計算負担を軽減する潜在的な解決策を提供する一方で、静的プルーニング手法は、異なるプロンプトのキャパシティ要件を見越して、全ての入力プロンプトに対して同じプルーニングモデルを使用する。
動的プルーニングは各プロンプトに個別のサブネットワークを使用することでこの問題に対処するが、GPUのバッチ並列化を防止している。
これらの制約を克服するため、T2I拡散モデル用に設計された新しいプロンプトベースのプルーニング手法であるAdaptive Prompt-Tailored Pruning (APTP)を導入する。
我々のアプローチの中心はプロンプトルータモデルであり、入力テキストプロンプトに必要なキャパシティを決定することを学習し、それをアーキテクチャコードにルーティングする。
それぞれのアーキテクチャコードは、割り当てられたプロンプトに合わせた特別なモデルを表しており、コードの数はハイパーパラメータである。
我々は、コントラスト学習を用いてプロンプトルータとアーキテクチャコードをトレーニングし、類似のプロンプトが近くのコードにマップされることを保証する。
さらに、最適なトランスポートを使用して、コードが1つのコードに崩壊するのを防ぐ。
我々は、CC3MとCOCOをターゲットデータセットとして、安定拡散(SD)V2.1をプルーニングすることでAPTPの有効性を示す。
APTPはFID、CLIP、CMMDスコアの点でシングルモデルプルーニングベースラインを上回っている。
APTPが学習したクラスタの分析により、意味論的に意味があることが判明した。
また、APTPは、SD、例えばテキスト画像を生成するプロンプトに対して、以前に実証された挑戦的なプロンプトを自動的に検出し、より高いキャパシティコードにアサインできることも示している。
関連論文リスト
- (PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork [60.889175951038496]
大規模ニューラルネットワークは、視覚や言語処理など、さまざまな領域で顕著なパフォーマンスを示している。
構造的刈り込みの鍵となる問題のひとつは、チャネルの意義を見積もる方法である。
我々は,新しいアルゴリズムフレームワーク,すなわち textttPASS を提案する。
視覚的プロンプトとネットワーク重み統計の両方を入力とし、繰り返し的に層ワイドチャネル間隔を出力するように調整されたハイパーネットワークである。
論文 参考訳(メタデータ) (2024-07-24T16:47:45Z) - Implicit and Explicit Language Guidance for Diffusion-based Visual Perception [42.71751651417168]
テキスト・ツー・イメージ拡散モデルでは、テクスチャが豊かで、異なるテキストプロンプトの下で合理的な構造を持つ高品質な画像を生成することができる。
拡散に基づく知覚のための暗黙的かつ明示的な言語指導フレームワークIEDPを提案する。
我々のIEDPは、セマンティックセグメンテーションと深さ推定を含む2つの典型的な知覚タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2024-04-11T09:39:58Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [150.57983348059528]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。
T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。
本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - A Unified Framework for Multi-intent Spoken Language Understanding with
prompting [14.17726194025463]
Prompt-based Spoken Language Understanding (PromptSLU) フレームワークについて述べる。
詳細は、音声をタスク固有のプロンプトテンプレートに入力として簡潔に充填し、キー-値ペアシーケンスの出力形式を共有することにより、IDとSFが完成する。
実験の結果,我々のフレームワークは2つの公開データセット上で,最先端のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-07T05:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。