論文の概要: SPARKE: Scalable Prompt-Aware Diversity Guidance in Diffusion Models via RKE Score
- arxiv url: http://arxiv.org/abs/2506.10173v1
- Date: Wed, 11 Jun 2025 20:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.451827
- Title: SPARKE: Scalable Prompt-Aware Diversity Guidance in Diffusion Models via RKE Score
- Title(参考訳): SPARKE: RKEスコアによる拡散モデルにおけるスケーラブルなprompt-Aware Diversity Guidance
- Authors: Mohammad Jalali, Haoyu Lei, Amin Gohari, Farzan Farnia,
- Abstract要約: 拡散モデルは高忠実度画像合成と即時誘導生成モデルにおいて顕著な成功を収めている。
そこで本稿では,SPARKE(Scalble Prompt-Aware R'eny Kernel Entropy Diversity Guidance)法を提案する。
本研究では,複数のテキスト・画像拡散モデル上でSPARKE法を数値的に検証し,提案手法が有意な計算コストを伴わずに生成したデータの迅速な多様性を向上させることを示す。
- 参考スコア(独自算出の注目度): 16.00815718886712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have demonstrated remarkable success in high-fidelity image synthesis and prompt-guided generative modeling. However, ensuring adequate diversity in generated samples of prompt-guided diffusion models remains a challenge, particularly when the prompts span a broad semantic spectrum and the diversity of generated data needs to be evaluated in a prompt-aware fashion across semantically similar prompts. Recent methods have introduced guidance via diversity measures to encourage more varied generations. In this work, we extend the diversity measure-based approaches by proposing the Scalable Prompt-Aware R\'eny Kernel Entropy Diversity Guidance (SPARKE) method for prompt-aware diversity guidance. SPARKE utilizes conditional entropy for diversity guidance, which dynamically conditions diversity measurement on similar prompts and enables prompt-aware diversity control. While the entropy-based guidance approach enhances prompt-aware diversity, its reliance on the matrix-based entropy scores poses computational challenges in large-scale generation settings. To address this, we focus on the special case of Conditional latent RKE Score Guidance, reducing entropy computation and gradient-based optimization complexity from the $O(n^3)$ of general entropy measures to $O(n)$. The reduced computational complexity allows for diversity-guided sampling over potentially thousands of generation rounds on different prompts. We numerically test the SPARKE method on several text-to-image diffusion models, demonstrating that the proposed method improves the prompt-aware diversity of the generated data without incurring significant computational costs. We release our code on the project page: https://mjalali.github.io/SPARKE
- Abstract(参考訳): 拡散モデルは高忠実度画像合成と即時誘導生成モデルにおいて顕著な成功を収めた。
しかしながら、プロンプト誘導拡散モデルの生成したサンプルの適切な多様性を確保することは、特にプロンプトが広範囲なセマンティックスペクトルにまたがり、生成したデータの多様性がセマンティック的に類似したプロンプトにわたって、プロンプト認識方式で評価する必要がある場合において、依然として課題である。
近年の手法は、より多様な世代を奨励するための多様性対策によるガイダンスを導入している。
本研究では,SPARKE(Scalable Prompt-Aware R\'eny Kernel Entropy Diversity Guidance)法を提案することにより,多様性尺度に基づくアプローチを拡張した。
SPARKEは、条件エントロピーを多様性誘導に利用し、同様のプロンプト上での多様性測定を動的に条件付けし、迅速な多様性制御を可能にする。
エントロピーに基づくガイダンスアプローチは、プロンプトアウェアの多様性を高めるが、行列ベースのエントロピースコアへの依存は、大規模な生成環境において計算上の課題を引き起こす。
これを解決するために、条件付き潜在RKEスコアガイダンスの特殊な場合に着目し、エントロピー計算と勾配に基づく最適化の複雑さを、一般的なエントロピー測度の$O(n^3)$から$O(n)$に減らした。
計算複雑性の低減により、異なるプロンプト上で数千世代にわたる潜在的に多様性を誘導したサンプリングが可能になる。
本研究では,複数のテキスト・画像拡散モデル上でSPARKE法を数値的に検証し,提案手法が有意な計算コストを伴わずに生成したデータの迅速な多様性を向上させることを示す。
私たちはプロジェクトページでコードを公開しています。
関連論文リスト
- Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - Diversity Covariance-Aware Prompt Learning for Vision-Language Models [12.40822956896241]
本稿では、データから分布情報を学習し、プロンプトモデルの少数ショット能力を向上する多様性共分散認識フレームワークを提案する。
視覚的特徴間の共分散関係をモデル化し,2つのモーダル間の類似度を測定するために,最適コサイン距離の代わりに異方性マハラノビス距離を用いる共分散認識手法を提案する。
そこで本研究では,多種多様なソフトプロンプトを学習し,カテゴリの異なる属性を抽出し,視覚的モダリティと独立にアライメントする多様性認識手法を提案する。
論文 参考訳(メタデータ) (2025-03-03T13:40:43Z) - Prompt as Free Lunch: Enhancing Diversity in Source-Free Cross-domain Few-shot Learning through Semantic-Guided Prompting [9.116108409344177]
ソースフリーのクロスドメイン数ショット学習タスクは、最小限のサンプルを使用して、トレーニング済みのモデルをターゲットのドメインに転送することを目的としている。
本稿では2つのフェーズに分けられるSeGD-VPTフレームワークを提案する。
最初のステップは、各サポートサンプルに多様性プロンプトを追加し、様々な入力を生成し、サンプルの多様性を高めることで、機能の多様性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-12-01T11:00:38Z) - GANPrompt: Enhancing Robustness in LLM-Based Recommendations with GAN-Enhanced Diversity Prompts [15.920623515602038]
大規模言語モデル(LLM)は、素早い単語の影響を受けやすい。
本稿では,GAN(Generative Adversarial Networks)に基づく多次元LCMの多様性フレームワークであるGANPromptを提案する。
このフレームワークは,GAN生成技術とLLMの深い意味理解機能を統合することにより,多様なプロンプトに対するモデルの適応性と安定性を向上させる。
論文 参考訳(メタデータ) (2024-08-19T03:13:20Z) - Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding [90.77521413857448]
深層生成モデルは,3つのコア機能 – 新たなインスタンスの生成,入力の再構築,コンパクト表現の学習 – に固定されている。
一般化逆変換拡散確率モデル(EDDPM)を導入する。
EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。
テキスト、タンパク質、画像の実験は、多様なデータやタスクを扱う柔軟性を示している。
論文 参考訳(メタデータ) (2024-02-29T10:08:57Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Diversity of Thought Improves Reasoning Abilities of LLMs [26.149914503910235]
大規模言語モデル(LLM)は、複雑な推論を必要とする設定で苦労するために文書化されている。
我々は、思考の多様性の手段として、入力プロンプトのバリエーションを作成し、活用する方法について議論する。
論文 参考訳(メタデータ) (2023-10-11T00:01:41Z) - Heterogeneous Multi-Task Gaussian Cox Processes [61.67344039414193]
異種相関タスクを共同でモデル化するためのマルチタスクガウスコックスプロセスの新たな拡張を提案する。
MOGPは、分類、回帰、ポイントプロセスタスクの専用可能性のパラメータに先行して、異種タスク間の情報の共有を容易にする。
モデルパラメータを推定するための閉形式反復更新を実現する平均場近似を導出する。
論文 参考訳(メタデータ) (2023-08-29T15:01:01Z) - Towards Multimodal Response Generation with Exemplar Augmentation and
Curriculum Optimization [73.45742420178196]
本稿では,高度化とカリキュラム最適化を併用した,新しいマルチモーダル応答生成フレームワークを提案する。
我々のモデルは多様性と妥当性の点で強いベースラインに比べて大幅に改善されている。
論文 参考訳(メタデータ) (2020-04-26T16:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。