Fugu-MT 論文翻訳(概要): Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models

論文の概要: Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2406.12042v1
Date: Mon, 17 Jun 2024 19:22:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-20 00:07:10.992214
Title: Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models
Title（参考訳）: すべてのプロンプトが等しくなるわけではない:テキストと画像の拡散モデルのプロンプトベースプルーニング
Authors: Alireza Ganjdanesh, Reza Shirkavand, Shangqian Gao, Heng Huang,
Abstract要約: 本稿では,テキスト・ツー・イメージ(T2I)拡散モデルのための新しいプロンプトベースのプルーニング手法であるAdaptive Prompt-Tailored Pruning (APTP)を紹介する。 APTPは入力テキストプロンプトに必要な容量を決定することを学び、それをアーキテクチャコードにルーティングする。 APTPはFID、CLIP、CMMDスコアの点でシングルモデルプルーニングベースラインを上回っている。
参考スコア（独自算出の注目度）: 59.16287352266203
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image (T2I) diffusion models have demonstrated impressive image generation capabilities. Still, their computational intensity prohibits resource-constrained organizations from deploying T2I models after fine-tuning them on their internal target data. While pruning techniques offer a potential solution to reduce the computational burden of T2I models, static pruning methods use the same pruned model for all input prompts, overlooking the varying capacity requirements of different prompts. Dynamic pruning addresses this issue by utilizing a separate sub-network for each prompt, but it prevents batch parallelism on GPUs. To overcome these limitations, we introduce Adaptive Prompt-Tailored Pruning (APTP), a novel prompt-based pruning method designed for T2I diffusion models. Central to our approach is a prompt router model, which learns to determine the required capacity for an input text prompt and routes it to an architecture code, given a total desired compute budget for prompts. Each architecture code represents a specialized model tailored to the prompts assigned to it, and the number of codes is a hyperparameter. We train the prompt router and architecture codes using contrastive learning, ensuring that similar prompts are mapped to nearby codes. Further, we employ optimal transport to prevent the codes from collapsing into a single one. We demonstrate APTP's effectiveness by pruning Stable Diffusion (SD) V2.1 using CC3M and COCO as target datasets. APTP outperforms the single-model pruning baselines in terms of FID, CLIP, and CMMD scores. Our analysis of the clusters learned by APTP reveals they are semantically meaningful. We also show that APTP can automatically discover previously empirically found challenging prompts for SD, e.g., prompts for generating text images, assigning them to higher capacity codes.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)拡散モデルは印象的な画像生成能力を示している。それでも、その計算強度は、リソース制約のある組織がT2Iモデルを内部のターゲットデータに微調整した後に展開することを妨げている。プルーニング技術は、T2Iモデルの計算負担を軽減する潜在的な解決策を提供する一方で、静的プルーニング手法は、異なるプロンプトのキャパシティ要件を見越して、全ての入力プロンプトに対して同じプルーニングモデルを使用する。動的プルーニングは各プロンプトに個別のサブネットワークを使用することでこの問題に対処するが、GPUのバッチ並列化を防止している。これらの制約を克服するため、T2I拡散モデル用に設計された新しいプロンプトベースのプルーニング手法であるAdaptive Prompt-Tailored Pruning (APTP)を導入する。我々のアプローチの中心はプロンプトルータモデルであり、入力テキストプロンプトに必要なキャパシティを決定することを学習し、それをアーキテクチャコードにルーティングする。それぞれのアーキテクチャコードは、割り当てられたプロンプトに合わせた特別なモデルを表しており、コードの数はハイパーパラメータである。我々は、コントラスト学習を用いてプロンプトルータとアーキテクチャコードをトレーニングし、類似のプロンプトが近くのコードにマップされることを保証する。さらに、最適なトランスポートを使用して、コードが1つのコードに崩壊するのを防ぐ。我々は、CC3MとCOCOをターゲットデータセットとして、安定拡散(SD)V2.1をプルーニングすることでAPTPの有効性を示す。 APTPはFID、CLIP、CMMDスコアの点でシングルモデルプルーニングベースラインを上回っている。 APTPが学習したクラスタの分析により、意味論的に意味があることが判明した。また、APTPは、SD、例えばテキスト画像を生成するプロンプトに対して、以前に実証された挑戦的なプロンプトを自動的に検出し、より高いキャパシティコードにアサインできることも示している。

関連論文リスト

Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection [17.590853105242864]
視覚言語モデル(例えばCLIP)はゼロショット異常検出(ZSAD)において顕著な性能を示した。 Bayes-PFL は画像固有の分布と画像に依存しない分布の両方を学習するために設計されており、テキストプロンプト空間を正規化し、未知のカテゴリにおけるモデルの一般化を改善するために共同で使用される。 15の産業用および医療用データセットに対する実験により,本手法の優れた性能が示された。
論文参考訳（メタデータ） (2025-03-13T06:05:35Z)
One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文参考訳（メタデータ） (2025-01-23T10:57:22Z)
Differentiable Prompt Learning for Vision Language Models [49.132774679968456]
本稿では,DPL(di differentiable prompt learning)という,識別可能なプロンプト学習手法を提案する。 DPLは最適化問題として定式化され、各層に追加するプロンプトの最適コンテキスト長を自動的に決定する。 DPL法は,限られたデータのみを用いることで,信頼性の高い深い連続的なプロンプト構成を実現できることを実証的に見出した。
論文参考訳（メタデータ） (2024-12-31T14:13:28Z)
ChangeDiff: A Multi-Temporal Change Detection Data Generator with Flexible Text Prompts via Diffusion Model [21.50463332137926]
本稿では,セマンティックCD(SCD)タスクに着目し,マルチテンポラリSCDデータジェネレータであるChangeDiffを開発する。 ChangeDiffは2つのステップで変更データを生成する。まず、連続的なレイアウトを作成するためにテキストプロンプトとテキスト・ツー・イメージモデルを使用し、それからレイアウト・ツー・イメージを使用してレイアウトをイメージに変換する。生成したデータは、時間的連続性、空間的多様性、および品質リアリズムの著しい進歩を示し、精度と伝達性で変化検出器を増強した。
論文参考訳（メタデータ） (2024-12-20T03:58:28Z)
(PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork [60.889175951038496]
大規模ニューラルネットワークは、視覚や言語処理など、さまざまな領域で顕著なパフォーマンスを示している。構造的刈り込みの鍵となる問題のひとつは、チャネルの意義を見積もる方法である。我々は,新しいアルゴリズムフレームワーク,すなわち textttPASS を提案する。視覚的プロンプトとネットワーク重み統計の両方を入力とし、繰り返し的に層ワイドチャネル間隔を出力するように調整されたハイパーネットワークである。
論文参考訳（メタデータ） (2024-07-24T16:47:45Z)
Implicit and Explicit Language Guidance for Diffusion-based Visual Perception [42.71751651417168]
テキスト・ツー・イメージ拡散モデルでは、テクスチャが豊かで、異なるテキストプロンプトの下で合理的な構造を持つ高品質な画像を生成することができる。拡散に基づく知覚のための暗黙的かつ明示的な言語指導フレームワークIEDPを提案する。我々のIEDPは、セマンティックセグメンテーションと深さ推定を含む2つの典型的な知覚タスクにおいて有望な性能を達成する。
論文参考訳（メタデータ） (2024-04-11T09:39:58Z)
Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [150.57983348059528]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。 T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文参考訳（メタデータ） (2024-03-28T02:35:53Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文参考訳（メタデータ） (2023-05-22T17:59:41Z)
A Unified Framework for Multi-intent Spoken Language Understanding with prompting [14.17726194025463]
Prompt-based Spoken Language Understanding (PromptSLU) フレームワークについて述べる。詳細は、音声をタスク固有のプロンプトテンプレートに入力として簡潔に充填し、キー-値ペアシーケンスの出力形式を共有することにより、IDとSFが完成する。実験の結果,我々のフレームワークは2つの公開データセット上で,最先端のベースラインよりも優れていた。
論文参考訳（メタデータ） (2022-10-07T05:58:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。