論文の概要: Performance Plateaus in Inference-Time Scaling for Text-to-Image Diffusion Without External Models
- arxiv url: http://arxiv.org/abs/2506.12633v1
- Date: Sat, 14 Jun 2025 21:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.597037
- Title: Performance Plateaus in Inference-Time Scaling for Text-to-Image Diffusion Without External Models
- Title(参考訳): 外部モデルのないテキスト・画像拡散における推論時間スケーリングの性能評価
- Authors: Changhyun Choi, Sungha Kim, H. Jin Kim,
- Abstract要約: テキストから画像への拡散モデルの初期ノイズを最適化するアルゴリズムにベスト・オブ・Nの推論時間スケーリングを適用する。
本研究では,テキストから画像への拡散モデルに対する推論時間スケーリングが急速に性能高原に達することを実証する。
- 参考スコア(独自算出の注目度): 31.873727540047156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, it has been shown that investing computing resources in searching for good initial noise for a text-to-image diffusion model helps improve performance. However, previous studies required external models to evaluate the resulting images, which is impossible on GPUs with small VRAM. For these reasons, we apply Best-of-N inference-time scaling to algorithms that optimize the initial noise of a diffusion model without external models across multiple datasets and backbones. We demonstrate that inference-time scaling for text-to-image diffusion models in this setting quickly reaches a performance plateau, and a relatively small number of optimization steps suffices to achieve the maximum achievable performance with each algorithm.
- Abstract(参考訳): 近年,テキストから画像への拡散モデルに対する優れた初期ノイズ探索にコンピュータリソースを投資することは,性能向上に寄与することが示されている。
しかし、以前の研究では、小さなVRAMを持つGPUでは不可能な結果の画像を評価するために外部モデルが必要であった。
これらの理由から、複数のデータセットやバックボーンにまたがる外部モデルなしで拡散モデルの初期ノイズを最適化するアルゴリズムにBest-of-N推論時間スケーリングを適用する。
本研究では,テキストから画像への拡散モデルに対する推論時間スケーリングが高速に性能評価値に到達し,各アルゴリズムで達成可能な最大性能を達成するためには,比較的少数の最適化ステップが十分であることを示す。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、ある画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。
モチベートされたスコアベース拡散モデルはその経験的成功により、画像再構成に先立って模範の印象的な候補として現れた。
論文 参考訳(メタデータ) (2024-03-25T15:58:26Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - AdaDiff: Accelerating Diffusion Models through Step-Wise Adaptive Computation [32.74923906921339]
拡散モデルは多彩で高忠実な画像を生成する上で大きな成功を収めるが、それらの応用は本質的に遅い生成速度によって妨げられる。
本稿では,拡散モデルの生成効率を向上させるために,各サンプリングステップで動的に計算資源を割り当てる適応フレームワークであるAdaDiffを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:10:04Z) - AutoDiffusion: Training-Free Optimization of Time Steps and
Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。
実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-19T08:57:24Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。