論文の概要: Naïve PAINE: Lightweight Text-to-Image Generation Improvement with Prompt Evaluation
- arxiv url: http://arxiv.org/abs/2603.12506v1
- Date: Thu, 12 Mar 2026 22:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.79766
- Title: Naïve PAINE: Lightweight Text-to-Image Generation Improvement with Prompt Evaluation
- Title(参考訳): ネイヴ・パイン:プロンプト評価による軽量テキスト・画像生成の改善
- Authors: Joong Ho Kim, Nicholas Thai, Souhardya Saha Dip, Dong Lao, Keith G. Mills,
- Abstract要約: テキスト・ツー・イメージ(T2I)生成は主に拡散モデル(DM)によって駆動される
本稿では,T2I選好ベンチマークを利用して拡散モデルの生成品質を向上させるため,Nave PAINEを提案する。
Nave PAINEは、プロンプトを与えられたDM生成品質に関するフィードバックを提供し、既存のDMパイプラインにシームレスに適合できるほど軽量である。
- 参考スコア(独自算出の注目度): 8.62911650097065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image (T2I) generation is primarily driven by Diffusion Models (DM) which rely on random Gaussian noise. Thus, like playing the slots at a casino, a DM will produce different results given the same user-defined inputs. This imposes a gambler's burden: To perform multiple generation cycles to obtain a satisfactory result. However, even though DMs use stochastic sampling to seed generation, the distribution of generated content quality highly depends on the prompt and the generative ability of a DM with respect to it. To account for this, we propose Naïve PAINE for improving the generative quality of Diffusion Models by leveraging T2I preference benchmarks. We directly predict the numerical quality of an image from the initial noise and given prompt. Naïve PAINE then selects a handful of quality noises and forwards them to the DM for generation. Further, Naïve PAINE provides feedback on the DM generative quality given the prompt and is lightweight enough to seamlessly fit into existing DM pipelines. Experimental results demonstrate that Naïve PAINE outperforms existing approaches on several prompt corpus benchmarks.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成は主にランダムなガウスノイズに依存する拡散モデル(DM)によって駆動される。
したがって、カジノでスロットを再生するのと同じように、DMは同じユーザ定義の入力で異なる結果を生成する。
これはギャンブラーの負担を課し、複数の世代サイクルを実行して満足な結果を得る。
しかし, DMは, 種子生成に確率的サンプリングを用いるが, 生成したコンテンツ品質の分布は, DMのプロンプトと生成能力に大きく依存する。
そこで本研究では,T2I選好ベンチマークを利用して拡散モデルの生成品質を向上させるため,Nawve PAINEを提案する。
我々は、初期雑音から画像の数値的品質を直接予測し、プロンプトを与える。
ナイーヴ・パイン(英語版)は数個の質の高いノイズを選択し、それらをDMに転送して生成する。
さらにネイヴ・パイン(英語版)は、プロンプトによってDM生成品質のフィードバックを提供し、既存のDMパイプラインにシームレスに適合できるほど軽量である。
実験結果から、ナイーヴ・パインはいくつかのプロンプトコーパスベンチマークにおいて既存の手法よりも優れていることが示された。
関連論文リスト
- NDM: A Noise-driven Detection and Mitigation Framework against Implicit Sexual Intentions in Text-to-Image Generation [41.058425895887616]
テキスト・ツー・イメージ(T2I)モデルは不適切なコンテンツを生成するのに弱い。
暗黙の性的プロンプトは、しばしば良心的な言葉に変装して、予想外の性的内容を引き起こす可能性がある。
我々は,最初のノイズ駆動型検出・緩和フレームワークであるNDMを提案する。
論文 参考訳(メタデータ) (2025-10-17T15:37:02Z) - Diffusion Models with Adaptive Negative Sampling Without External Resources [54.84368884047812]
ANSWERは、CFGをサポートするあらゆるモデルに適用可能な、トレーニング不要の技法であり、負のプロンプトを明示することなく、イメージ概念の負のグラウンド化を可能にする。
実験により、既存のDMにANSWERを追加することは、複数のベンチマークでベースラインよりも優れており、他の方法よりも人間の方が2倍多いことが示されている。
論文 参考訳(メタデータ) (2025-08-05T00:45:54Z) - HAODiff: Human-Aware One-Step Diffusion via Dual-Prompt Guidance [71.5820853722963]
人中心画像は、伝達中に重篤な遺伝子劣化に悩まされ、ヒトの運動のぼかし(HMB)に起因することが多い
我々は,HMBと汎用雑音の共存をシミュレートした分解パイプラインを設計し,提案したHAODiffをトレーニングするための合成劣化データを生成する。
公平な評価のために,ノイズとHMBの併用に富んだベンチマークMPII-Testを導入する。
論文 参考訳(メタデータ) (2025-05-26T09:24:11Z) - Regression is all you need for medical image translation [0.0]
医療画像翻訳のための2.5D拡散型フレームワークであるYODAを提案する。
従来の拡散サンプリングはノイズを再現するので,物理信号平均化と同様,複数のサンプルを描画し,平均化する。
また,最初のDM予測を保ち,反復補正を緩和して1ステップでノイズフリーな画像を生成する回帰サンプリング YODAを提案する。
論文 参考訳(メタデータ) (2025-05-04T09:57:10Z) - The Silent Assistant: NoiseQuery as Implicit Guidance for Goal-Driven Image Generation [31.599902235859687]
本稿では,テキストプロンプトなどの明示的なユーザ定義入力を補完する暗黙のガイダンスとして,一致したガウスノイズを活用することを提案する。
NoiseQueryはきめ細かい制御を可能にし、ハイレベルなセマンティクスや低レベルなビジュアル属性よりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-12-06T14:59:00Z) - Improving image synthesis with diffusion-negative sampling [54.84368884047812]
拡散モデル(DM)を用いた画像生成のための新しい拡散陰性プロンプト(DNP)戦略を提案する。
DNPは、拡散陰性サンプリング(DNS)と呼ばれるDMの分布下においてpに最も適合していない画像のサンプリングを行う新しい手順に基づいている。
DNSの実装は簡単で、トレーニングは不要である。実験と人的評価により、DNPは定量的にも質的にもよく機能することが示された。
論文 参考訳(メタデータ) (2024-11-08T10:58:09Z) - Minority-Focused Text-to-Image Generation via Prompt Optimization [57.319845580050924]
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。
我々は、推論中に所望のプロパティの出現を促すオンラインプロンプト最適化フレームワークを開発する。
次に、この一般的なプロンプト分布を、マイノリティな特徴の生成を促進する特別な解法へと調整する。
論文 参考訳(メタデータ) (2024-10-10T11:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。