論文の概要: Can We Predict The Human Preference For Text-to-Image Content Prior To Generation And Is It Even Useful To Do So?
- arxiv url: http://arxiv.org/abs/2606.05478v1
- Date: Wed, 03 Jun 2026 21:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.423097
- Title: Can We Predict The Human Preference For Text-to-Image Content Prior To Generation And Is It Even Useful To Do So?
- Title(参考訳): テキストと画像のコンテンツが生成される前に、人間の好みを予測できるだろうか?
- Authors: Joong Ho Kim, Keith G. Mills,
- Abstract要約: 拡散モデル(DM)は、ユーザプロンプトから高品質でフォトリアリスティックな視覚コンテンツを合成することで、テキスト駆動生成に革命をもたらした。
我々は、世代ごとに計算リソースをコミットする前に、スカラーなヒューマン・プライス・メトリック(HPM)スコアをどの程度予測できるかを検討する。
我々の調査は、これが可能であるだけでなく、無視可能なハードウェアオーバーヘッドを達成可能であることを明らかにしている。
- 参考スコア(独自算出の注目度): 4.8986598953553555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Models (DM) have revolutionized text-driven generation by enabling the synthesis of high-quality, photorealistic visual content from user prompts. Whereas prior advances in visual generation such as VAEs and GANs were primarily evaluated on perceptual or visual similarity metrics such as FID PSNR, DM advances have fostered the development of more advanced Human Preference Metrics (HPM) that model and quantify human judgment as scalar values. However, DMs synthesize content using an inherently stochastic process where random noise seeds generation. The initial random noise directly affects the quality of generated outputs, both qualitatively and quantitatively. This influence is pronounced in smaller models for local deployment scenarios. Given this phenomenon, we first investigate to what extent we can predict scalar HPM scores prior to committing compute resources for generation. Further, we then investigate to what extent we can leverage such prediction to improve the quality of generated images, and also study which HPMs are best suited for this task. Our investigation reveals that not only is this possible, but that it is feasible to achieve negligible hardware overhead.
- Abstract(参考訳): 拡散モデル(DM)は、ユーザプロンプトから高品質でフォトリアリスティックな視覚コンテンツを合成することで、テキスト駆動生成に革命をもたらした。
VAEやGANといった先進的な視覚生成は、主にFID PSNRのような知覚的または視覚的類似性指標に基づいて評価されているが、DMの進歩は、人間の判断をスカラー値としてモデル化し定量化するより高度なヒューマン・プライス・メトリック(HPM)の開発を促進する。
しかし、DMはランダムノイズシードを生成する確率過程を用いてコンテンツを合成する。
最初のランダムノイズは、質的にも定量的にも、生成した出力の品質に直接影響する。
この影響は、ローカルデプロイメントシナリオの小さなモデルで顕著である。
この現象を踏まえ、我々はまず、生成のための計算リソースをコミットする前に、スカラーHPMスコアをどの程度予測できるかを調査する。
さらに,生成画像の品質向上のために,このような予測をどの程度活用できるか,また,どのHPMが最適かを検討する。
我々の調査は、これが可能であるだけでなく、無視可能なハードウェアオーバーヘッドを達成可能であることを明らかにしている。
関連論文リスト
- VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery [75.62565146049015]
我々は、予測メッシュの文脈認識品質スコアを生成するために、自己回帰付きデュアルメモリ拡張HMRクオリティエージェントを導入する。
これらのスコアは、人間の3次元運動構造、物理的実現可能性、入力画像との整合性に関するきめ細かい手がかりを蒸留する。
拡散型HMRモデルの微調整のためのグループ選好アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-22T13:19:06Z) - More Than Generation: Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models [53.98725993420285]
生成深度推定法は、事前訓練されたテキスト-画像拡散モデルに格納されたリッチな視覚的先行情報を利用する。
本稿では,画像生成と深度推定の統一モデルであるMERGEを紹介する。
論文 参考訳(メタデータ) (2025-10-27T17:44:56Z) - TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation [48.61855865678161]
視覚的自己回帰(VAR)モデルのための、最初の一般的なテスト時間スケーリングフレームワークを提示する。
クラスタリングに基づく多様性探索と再サンプリングに基づく潜在的選択を提案する。
強力なVARモデルであるInfinityの実験は、注目すべき8.7%のGenEvalスコアの改善を示している。
論文 参考訳(メタデータ) (2025-07-24T16:04:55Z) - Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。
これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z) - Optimizing Resource Consumption in Diffusion Models through Hallucination Early Detection [87.22082662250999]
拡散過程の開始時に不正確な世代を迅速に検出する新しいパラダイムであるHEaD(Hallucination Early Detection)を導入する。
HEaDは計算資源を節約し,生成過程を高速化して完全な画像を得ることを示す。
その結果,HEaDは2つのオブジェクトのシナリオで生成時間の最大12%を節約できることがわかった。
論文 参考訳(メタデータ) (2024-09-16T18:00:00Z) - Assessing Sample Quality via the Latent Space of Generative Models [44.59115390303591]
そこで本研究では,学習した生成モデルの潜伏空間について検討し,生成したサンプルの品質を推定する。
これは、生成されたサンプルの品質が、それに似たトレーニングデータの量に直接関連しているため、実現可能である。
提案手法は, VAE, GAN, 潜伏拡散モデルなど, 様々な生成モデルのサンプル品質と高い相関関係を示す。
論文 参考訳(メタデータ) (2024-07-21T14:05:06Z) - One-Line-of-Code Data Mollification Improves Optimization of
Likelihood-based Generative Models [17.47235124122244]
LikelihoodベースのGMは、単一のモデル評価によって新しいデータを生成する可能性があるため、魅力的である。
彼らは通常、最先端のスコアベース拡散モデル(DM)と比較して低いサンプル品質を達成する。
論文 参考訳(メタデータ) (2023-05-30T09:58:47Z) - Robust Compressed Sensing MRI with Deep Generative Priors [84.69062247243953]
臨床MRIデータに対するCSGMフレームワークの初成功例を示す。
我々は、高速MRIデータセットから脳スキャンに先立って生成をトレーニングし、Langevin dynamicsによる後部サンプリングが高品質な再構成を実現することを示す。
論文 参考訳(メタデータ) (2021-08-03T08:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。