論文の概要: Diff-Prompt: Diffusion-Driven Prompt Generator with Mask Supervision
- arxiv url: http://arxiv.org/abs/2504.21423v1
- Date: Wed, 30 Apr 2025 08:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 19:44:33.511533
- Title: Diff-Prompt: Diffusion-Driven Prompt Generator with Mask Supervision
- Title(参考訳): ディフプロンプト:マスクスーパービジョン付き拡散駆動型プロンプト発電機
- Authors: Weicai Yan, Wang Lin, Zirun Guo, Ye Wang, Fangming Feng, Xiaoda Yang, Zehan Wang, Tao Jin,
- Abstract要約: 本稿では,拡散駆動型プロンプトジェネレータ(Diff-Prompt)を提案し,リッチできめ細かいプロンプト情報を生成する。
Diff-Promptは、基礎モデルと比較して、R@1で8.87、R@5で14.05の最大改善を実現している。
- 参考スコア(独自算出の注目度): 7.668943487262671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning has demonstrated promising results in fine-tuning pre-trained multimodal models. However, the performance improvement is limited when applied to more complex and fine-grained tasks. The reason is that most existing methods directly optimize the parameters involved in the prompt generation process through loss backpropagation, which constrains the richness and specificity of the prompt representations. In this paper, we propose Diffusion-Driven Prompt Generator (Diff-Prompt), aiming to use the diffusion model to generate rich and fine-grained prompt information for complex downstream tasks. Specifically, our approach consists of three stages. In the first stage, we train a Mask-VAE to compress the masks into latent space. In the second stage, we leverage an improved Diffusion Transformer (DiT) to train a prompt generator in the latent space, using the masks for supervision. In the third stage, we align the denoising process of the prompt generator with the pre-trained model in the semantic space, and use the generated prompts to fine-tune the model. We conduct experiments on a complex pixel-level downstream task, referring expression comprehension, and compare our method with various parameter-efficient fine-tuning approaches. Diff-Prompt achieves a maximum improvement of 8.87 in R@1 and 14.05 in R@5 compared to the foundation model and also outperforms other state-of-the-art methods across multiple metrics. The experimental results validate the effectiveness of our approach and highlight the potential of using generative models for prompt generation. Code is available at https://github.com/Kelvin-ywc/diff-prompt.
- Abstract(参考訳): プロンプト学習は、微調整された事前学習されたマルチモーダルモデルにおいて有望な結果を示している。
しかし、より複雑できめ細かいタスクに適用した場合、パフォーマンス改善は制限される。
理由は、既存のほとんどのメソッドは、損失逆伝播を通じてプロンプト生成プロセスに関与するパラメータを直接最適化し、プロンプト表現の豊かさと特異性を制限するためである。
本稿では,拡散モデルを用いて複雑な下流タスクに対して,リッチかつきめ細かなプロンプト情報を生成することを目的とした拡散駆動型プロンプトジェネレータ(Diff-Prompt)を提案する。
特に,本手法は3段階からなる。
第1段階ではマスクを潜在空間に圧縮するためにマスクVAEを訓練する。
第2段階では、改良された拡散変換器(DiT)を用いて、マスクを用いて、潜時空間でプロンプトジェネレータを訓練する。
第3段階では,プロンプト生成器の復調過程とセマンティック空間における事前学習モデルとを整列し,生成したプロンプトを用いてモデルを微調整する。
複雑な画素レベルのダウンストリームタスクの実験を行い、表現理解を参照し、パラメータ効率のよい微調整手法と比較する。
Diff-Promptは、基礎モデルと比較して、R@1の8.87とR@5の14.05の最大改善を実現し、また、複数のメトリクスにわたって、他の最先端メソッドよりも優れています。
実験により,本手法の有効性を検証し,生成モデルによる素早い生成の可能性を強調した。
コードはhttps://github.com/Kelvin-ywc/diff-prompt.comで入手できる。
関連論文リスト
- LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers [79.07412045476872]
拡散変換器は、様々な生成タスクの優越的なモデルとして登場してきた。
各拡散段階におけるモデル全体の実行は不要であることを示し、いくつかの計算は以前のステップの結果を遅延的に再利用することでスキップできることを示した。
遅延学習フレームワークを提案する。このフレームワークは,初期ステップからキャッシュされた結果を効率よく活用し,冗長な計算を省略する。
論文 参考訳(メタデータ) (2024-12-17T01:12:35Z) - Efficient Generative Modeling with Residual Vector Quantization-Based Tokens [5.949779668853557]
ResGenは、サンプリング速度を損なうことなく高忠実度サンプルを生成する効率的なRVQベースの離散拡散モデルである。
我々は,ImageNet 256x256における条件付き画像生成とゼロショット音声合成の2つの課題に対して,提案手法の有効性と一般化性を検証する。
RVQの深さを拡大するにつれて、我々の生成モデルは、同様の大きさのベースラインモデルと比較して、より優れた生成忠実度またはより高速なサンプリング速度を示す。
論文 参考訳(メタデータ) (2024-12-13T15:31:17Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation [44.74056930805525]
MDT-A2Gと呼ばれる音声合成のための新しいMasked Diffusion Transformerを提案する。
このモデルは、シーケンスジェスチャ間の時間的関係学習を強化するために特別に設計されたマスクモデリングスキームを用いる。
実験の結果,MDT-A2Gはジェスチャ生成に優れ,従来の拡散変圧器よりも6ドル以上高速な学習速度を有することがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:29:01Z) - IAPT: Instruction-Aware Prompt Tuning for Large Language Models [19.408462115679914]
ソフトトークンを4つしか必要としない新しいプロンプトチューニング手法である命令認識型プロンプトチューニング(IAPT)を提案する。
まず,各トランスフォーマー層にパラメータ効率の良いソフトプロンプト生成器を設置し,各入力命令に対して慣用的なソフトプロンプトを生成する。
第2に、ソフトプロンプトジェネレータは、自己アテンションプーリング操作、2つのリニアプロジェクション、およびアクティベーション関数からなるボトルネックアーキテクチャを持つモジュールである。
論文 参考訳(メタデータ) (2024-05-28T14:11:01Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Cross-view Masked Diffusion Transformers for Person Image Synthesis [21.242398582282522]
ポーズ誘導画像生成のための新しい拡散モデルであるX-MDPTを提案する。
X-MDPTは、潜伏パッチで動作するマスク付き拡散トランスフォーマーを用いて、自分自身を区別する。
我々のモデルはDeepFashionデータセットにおける最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-02-02T15:57:13Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - Conditional Prompt Tuning for Multimodal Fusion [33.11221356852871]
パラメータ効率のよいマルチモーダル融合において、あるモーダルの表現は、他のモーダルの促進を効果的に導くことができることを示す。
これは、バニラプロンプトベクトルを3種類の特殊プロンプトに切り離して、グローバルレベルとインスタンスレベルの機能を適応的にキャプチャすることで達成される。
本手法は,下流マルチモーダルタスクに対して,単調エンコーダにおける事前学習した知識を効果的に伝達することができる。
論文 参考訳(メタデータ) (2023-11-28T11:05:20Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。
シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。
本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T07:30:27Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。