論文の概要: Scaling Image and Video Generation via Test-Time Evolutionary Search
- arxiv url: http://arxiv.org/abs/2505.17618v1
- Date: Fri, 23 May 2025 08:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.927327
- Title: Scaling Image and Video Generation via Test-Time Evolutionary Search
- Title(参考訳): テスト時間進化探索による画像と映像のスケーリング
- Authors: Haoran He, Jiajun Liang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Ling Pan,
- Abstract要約: テスト時間スケーリング(TTS)は、推論時にさらなる計算を割り当てることで、生成モデルの性能を向上させるための有望な方向として登場した。
EvoSearchは、拡散とフローモデル間の画像生成とビデオ生成のスケーラビリティを効果的に向上する、新規で汎用的で効率的なTS手法である。
- 参考スコア(独自算出の注目度): 41.715197824076746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the marginal cost of scaling computation (data and parameters) during model pre-training continues to increase substantially, test-time scaling (TTS) has emerged as a promising direction for improving generative model performance by allocating additional computation at inference time. While TTS has demonstrated significant success across multiple language tasks, there remains a notable gap in understanding the test-time scaling behaviors of image and video generative models (diffusion-based or flow-based models). Although recent works have initiated exploration into inference-time strategies for vision tasks, these approaches face critical limitations: being constrained to task-specific domains, exhibiting poor scalability, or falling into reward over-optimization that sacrifices sample diversity. In this paper, we propose \textbf{Evo}lutionary \textbf{Search} (EvoSearch), a novel, generalist, and efficient TTS method that effectively enhances the scalability of both image and video generation across diffusion and flow models, without requiring additional training or model expansion. EvoSearch reformulates test-time scaling for diffusion and flow models as an evolutionary search problem, leveraging principles from biological evolution to efficiently explore and refine the denoising trajectory. By incorporating carefully designed selection and mutation mechanisms tailored to the stochastic differential equation denoising process, EvoSearch iteratively generates higher-quality offspring while preserving population diversity. Through extensive evaluation across both diffusion and flow architectures for image and video generation tasks, we demonstrate that our method consistently outperforms existing approaches, achieves higher diversity, and shows strong generalizability to unseen evaluation metrics. Our project is available at the website https://tinnerhrhe.github.io/evosearch.
- Abstract(参考訳): モデル事前学習におけるスケーリング計算(データとパラメータ)の限界コストが大幅に増加し続ける中、テスト時間スケーリング(TTS)は、推論時に追加計算を割り当てることで、生成モデルの性能を向上させるための有望な方向として現れてきた。
TTSは、複数の言語タスクで大きな成功を収めてきたが、画像およびビデオ生成モデル(拡散ベースまたはフローベースモデル)のテスト時間スケーリングの振る舞いを理解する上で、注目すべきギャップが残っている。
最近の研究は、ビジョンタスクの推論時間戦略の探求を始めているが、これらのアプローチは、タスク固有のドメインに制約されていること、スケーラビリティの低さを示すこと、サンプルの多様性を犠牲にする過度な最適化に陥ることなど、重要な制限に直面している。
本稿では,新たなトレーニングやモデル拡張を必要とせず,画像生成とビデオ生成の拡散とフローモデル間のスケーラビリティを効果的に向上する,新規で汎用的で効率的なTTS手法である,textbf{Evo}lutionary \textbf{Search} (EvoSearch)を提案する。
EvoSearchは、進化的探索問題として拡散とフローモデルの試験時間スケーリングを再構築し、生物学的進化の原理を活用して、認知軌道を効率的に探索し、洗練する。
EvoSearchは、確率微分方程式の分解過程に合わせて慎重に設計された選択と突然変異機構を取り入れることで、個体数の多様性を保ちながら、高品質な子孫を反復的に生成する。
画像生成タスクと映像生成タスクの拡散・流路構造を網羅的に評価することにより,提案手法が既存の手法を一貫して上回り,高い多様性を実現し,評価指標の発見に強い一般化性を示すことを示す。
私たちのプロジェクトは、https://tinnerhrhe.github.io/evosearch.comで公開されています。
関連論文リスト
- Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。
実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。
LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Improved Training Technique for Latent Consistency Models [18.617862678160243]
一貫性モデルは、単一のステップまたは複数のステップで高品質なサンプルを生成することができる。
画素空間と潜伏空間の統計的差異を解析し、潜伏データがしばしば非常にインパルス的な外れ値を含むことを発見した。
我々は,早期に拡散損失を導入し,さらに性能を高めるために最適な輸送(OT)結合を用いる。
論文 参考訳(メタデータ) (2025-02-03T15:25:58Z) - Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps [48.16416920913577]
拡散モデルの予測時間スケーリングの挙動を,デノナイジングステップの増大を超えて検討する。
拡散サンプリングプロセスにおいて,より優れたノイズを特定することを目的とした探索問題を考察する。
その結果, 推定時間計算の増加は, 拡散モデルにより生成された試料の品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-16T18:30:37Z) - Adaptive Non-Uniform Timestep Sampling for Diffusion Model Training [4.760537994346813]
データ分布が複雑化するにつれて、収束のためのトレーニング拡散モデルがますます複雑になる。
より重要な時間ステップを優先する一様でない時間ステップサンプリング手法を提案する。
提案手法は, 各種データセット, スケジューリング戦略, 拡散アーキテクチャにまたがるロバストな性能を示す。
論文 参考訳(メタデータ) (2024-11-15T07:12:18Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。