論文の概要: Self-Evaluation Unlocks Any-Step Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2512.22374v1
- Date: Fri, 26 Dec 2025 20:42:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.014418
- Title: Self-Evaluation Unlocks Any-Step Text-to-Image Generation
- Title(参考訳): 任意のステップのテキスト・ツー・イメージ・ジェネレーションをアンロックする自己評価
- Authors: Xin Yu, Xiaojuan Qi, Zhengqi Li, Kai Zhang, Richard Zhang, Zhe Lin, Eli Shechtman, Tianyu Wang, Yotam Nitzan,
- Abstract要約: 本稿では,テキスト・画像生成のための自己評価モデル(Self-E)について紹介する。
Self-Eは、フローマッチングモデルと同様のデータから学習し、同時に新しい自己評価メカニズムを使用する。
大規模なテキストと画像のベンチマークの実験では、Self-Eは数ステップの世代で優れているだけでなく、50ステップで最先端のFlow Matchingモデルと競合している。
- 参考スコア(独自算出の注目度): 65.7088507945307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Self-Evaluating Model (Self-E), a novel, from-scratch training approach for text-to-image generation that supports any-step inference. Self-E learns from data similarly to a Flow Matching model, while simultaneously employing a novel self-evaluation mechanism: it evaluates its own generated samples using its current score estimates, effectively serving as a dynamic self-teacher. Unlike traditional diffusion or flow models, it does not rely solely on local supervision, which typically necessitates many inference steps. Unlike distillation-based approaches, it does not require a pretrained teacher. This combination of instantaneous local learning and self-driven global matching bridges the gap between the two paradigms, enabling the training of a high-quality text-to-image model from scratch that excels even at very low step counts. Extensive experiments on large-scale text-to-image benchmarks show that Self-E not only excels in few-step generation, but is also competitive with state-of-the-art Flow Matching models at 50 steps. We further find that its performance improves monotonically as inference steps increase, enabling both ultra-fast few-step generation and high-quality long-trajectory sampling within a single unified model. To our knowledge, Self-E is the first from-scratch, any-step text-to-image model, offering a unified framework for efficient and scalable generation.
- Abstract(参考訳): 我々は,任意のステップ推論をサポートするテキスト・ツー・イメージ生成のための,新しいゼロ・スクラッチ・トレーニング手法である自己評価モデル(Self-E)を紹介する。
Self-Eは、フローマッチングモデルと同様のデータから学習し、同時に新しい自己評価メカニズムを使用します。
従来の拡散モデルや流れモデルとは異なり、通常は多くの推論ステップを必要とする局所的な監督にのみ依存しない。
蒸留ベースのアプローチとは異なり、事前訓練された教師は必要としない。
この即時局所学習と自己駆動的グローバルマッチングの組み合わせは、2つのパラダイム間のギャップを埋め、非常に低いステップ数でも優れた高品質のテキスト・ツー・イメージモデルの訓練を可能にする。
大規模なテキスト・ツー・イメージのベンチマークによる大規模な実験は、Self-Eが数ステップの世代で優れているだけでなく、50ステップで最先端のFlow Matchingモデルと競合していることを示している。
さらに、推論ステップが増加するにつれて単調に性能が向上し、単一統一モデルにおける超高速な数ステップ生成と高品質な長い軌道サンプリングが可能となる。
私たちの知る限り、Self-Eは、効率的でスケーラブルな生成のための統一されたフレームワークを提供する、最初のゼロスクラッチ、任意のステップのテキスト・ツー・イメージモデルです。
関連論文リスト
- Self-Improving LLM Agents at Test-Time [49.9396634315896]
言語モデル(LM)の1つのパラダイムは、大規模なトレーニングデータセットの作成に依存している。
実際には、大量のデータを集めることは非効率であり、それらのトレーニングは違法に高価である。
テスト時間自己改善(TT-SI)とテスト時間蒸留(TT-D)の2つのバリエーションについて検討する。
論文 参考訳(メタデータ) (2025-10-09T06:37:35Z) - Align Your Flow: Scaling Continuous-Time Flow Map Distillation [63.927438959502226]
フローマップは、任意の2つのノイズレベルを1ステップで接続し、すべてのステップカウントで有効に保ちます。
画像生成ベンチマークにおいて、Align Your Flowと呼ばれるフローマップモデルを広範囲に検証する。
テキスト条件付き合成において、既存の非横断的訓練された数ステップのサンプルよりも優れたテキスト間フローマップモデルを示す。
論文 参考訳(メタデータ) (2025-06-17T15:06:07Z) - Self-Corrected Flow Distillation for Consistent One-Step and Few-Step Text-to-Image Generation [3.8959351616076745]
フローマッチングは、生成モデルをトレーニングするための有望なフレームワークとして登場した。
本稿では, 整合性モデルと対向学習を統合した自己補正型流動蒸留法を提案する。
この研究は、数ステップと1ステップのサンプリングで一貫した生成品質を達成するための先駆者である。
論文 参考訳(メタデータ) (2024-12-22T07:48:49Z) - OFTSR: One-Step Flow for Image Super-Resolution with Tunable Fidelity-Realism Trade-offs [24.046764908874703]
OFTSRはワンステップ画像超解像のためのフローベースフレームワークであり、可変レベルの忠実度とリアリズムで出力を生成することができる。
我々は,一段階画像の超高解像度化を実現するとともに,忠実現実主義のトレードオフを柔軟に調整できることを実証した。
論文 参考訳(メタデータ) (2024-12-12T17:14:58Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - SelfEval: Leveraging the discriminative nature of generative models for evaluation [30.239717220862143]
テキストから画像への生成拡散モデルのテキストアライメントを自動評価する方法を提案する。
提案手法はSelfEvalと呼ばれ,テキストプロンプトが与えられた実画像の確率を計算するために生成モデルを用いている。
論文 参考訳(メタデータ) (2023-11-17T18:58:16Z) - Learning Rich Nearest Neighbor Representations from Self-supervised
Ensembles [60.97922557957857]
推論時間における勾配降下から直接表現を学習する新しい手法により、自己教師付きモデルアンサンブルを行うためのフレームワークを提供する。
この技術は、ドメイン内のデータセットと転送設定の両方において、k-nearestの隣人によって測定されるように、表現品質を改善する。
論文 参考訳(メタデータ) (2021-10-19T22:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。