論文の概要: CoRe^2: Collect, Reflect and Refine to Generate Better and Faster
- arxiv url: http://arxiv.org/abs/2503.09662v1
- Date: Wed, 12 Mar 2025 15:15:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:21.919111
- Title: CoRe^2: Collect, Reflect and Refine to Generate Better and Faster
- Title(参考訳): CoRe^2: より良い高速な生成のための収集、リフレクション、リファイン
- Authors: Shitong Shao, Zikai Zhou, Dian Xie, Yuetong Fang, Tian Ye, Lichen Bai, Zeke Xie,
- Abstract要約: 本稿では,3つのサブプロセス(コレクタ,リフレクション,リファイン)からなる新しいプラグアンドプレイ推論パラダイムであるCoRe2を紹介する。
CoRe2は、条件付き出力を洗練させるために弱いガイダンスを使用し、それによってモデルの能力を改善し、高周波でリアルなコンテンツを生成する。
HPD v2、Pick-of-Pic、Drawbench、GenEval、T2I-Compbenchで大幅に性能が向上した。
- 参考スコア(独自算出の注目度): 11.230943283470522
- License:
- Abstract: Making text-to-image (T2I) generative model sample both fast and well represents a promising research direction. Previous studies have typically focused on either enhancing the visual quality of synthesized images at the expense of sampling efficiency or dramatically accelerating sampling without improving the base model's generative capacity. Moreover, nearly all inference methods have not been able to ensure stable performance simultaneously on both diffusion models (DMs) and visual autoregressive models (ARMs). In this paper, we introduce a novel plug-and-play inference paradigm, CoRe^2, which comprises three subprocesses: Collect, Reflect, and Refine. CoRe^2 first collects classifier-free guidance (CFG) trajectories, and then use collected data to train a weak model that reflects the easy-to-learn contents while reducing number of function evaluations during inference by half. Subsequently, CoRe^2 employs weak-to-strong guidance to refine the conditional output, thereby improving the model's capacity to generate high-frequency and realistic content, which is difficult for the base model to capture. To the best of our knowledge, CoRe^2 is the first to demonstrate both efficiency and effectiveness across a wide range of DMs, including SDXL, SD3.5, and FLUX, as well as ARMs like LlamaGen. It has exhibited significant performance improvements on HPD v2, Pick-of-Pic, Drawbench, GenEval, and T2I-Compbench. Furthermore, CoRe^2 can be seamlessly integrated with the state-of-the-art Z-Sampling, outperforming it by 0.3 and 0.16 on PickScore and AES, while achieving 5.64s time saving using SD3.5.Code is released at https://github.com/xie-lab-ml/CoRe/tree/main.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)生成モデルの作成は、高速かつ良好に行われ、有望な研究の方向性を示している。
従来の研究は、サンプリング効率を犠牲にして合成画像の視覚的品質を向上させるか、ベースモデルの生成能力を改善することなくサンプリングを劇的に加速させるかに重点を置いてきた。
さらに,ほぼすべての推論手法は,拡散モデル (DM) と視覚自己回帰モデル (ARM) の両方で同時に安定した性能を確保できなかった。
本稿では,3つのサブプロセス(コレクタ,リフレクション,リファイン)からなる新しいプラグ・アンド・プレイ推論パラダイムであるCoRe^2を紹介する。
CoRe^2 はまず分類器フリー誘導 (CFG) トラジェクトリを収集し、次に収集したデータを用いて、推論中の関数評価数を半分に減らしながら、読みやすい内容を反映した弱いモデルを訓練する。
その後、CoRe^2 は条件出力の洗練に弱いガイダンスを用いており、それによってモデルの性能を改善して高頻度でリアルなコンテンツを生成し、ベースモデルが捉えるのが難しい。
私たちの知る限りでは、CoRe^2は、SDXL、SD3.5、FLUX、LlamaGenのようなARMなど、幅広いDMの効率性と効率性を初めて示す。
HPD v2、Pick-of-Pic、Drawbench、GenEval、T2I-Compbenchで大幅に性能が向上した。
さらに、CoRe^2は最先端のZ-Samplingとシームレスに統合され、PickScoreとAESで0.3と0.16で性能が向上し、SD3.5.Codeで5.64秒の節約を実現している。
関連論文リスト
- Weak-to-Strong Diffusion with Reflection [56.39451539396458]
Weak-to-Strong Diffusion (W2SD) を提案し、理想モデルと強モデルとのギャップを近似する。
広範囲な実験により、W2SDは人間の嗜好、美的品質、即効性を改善することが示されている。
論文 参考訳(メタデータ) (2025-02-01T16:00:08Z) - SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images [49.7344030427291]
単一画像の3Dオブジェクト再構成の問題点について検討する。
最近の研究は回帰モデルと生成モデルという2つの方向に分かれている。
両方向を最大限に活用するための新しい2段階アプローチであるSPAR3Dを提案する。
論文 参考訳(メタデータ) (2025-01-08T18:52:03Z) - Efficient Generative Modeling with Residual Vector Quantization-Based Tokens [5.949779668853557]
ResGenは、サンプリング速度を損なうことなく高忠実度サンプルを生成する効率的なRVQベースの離散拡散モデルである。
我々は,ImageNet 256x256における条件付き画像生成とゼロショット音声合成の2つの課題に対して,提案手法の有効性と一般化性を検証する。
RVQの深さを拡大するにつれて、我々の生成モデルは、同様の大きさのベースラインモデルと比較して、より優れた生成忠実度またはより高速なサンプリング速度を示す。
論文 参考訳(メタデータ) (2024-12-13T15:31:17Z) - Adversarial Diffusion Compression for Real-World Image Super-Resolution [16.496532580598007]
現実世界の超解像は、劣化した低分解能入力から高分解能画像を再構成することを目的としている。
OSEDiffやS3Diffのような一段階拡散ネットワークはこの問題を緩和するが、それでも高い計算コストがかかる。
本稿では,一段階拡散ネットワークOSEDiffを流線形拡散GANモデルに蒸留することにより,新しいリアルISR法AdcSRを提案する。
論文 参考訳(メタデータ) (2024-11-20T15:13:36Z) - Clover-2: Accurate Inference for Regressive Lightweight Speculative Decoding [8.046705062670096]
レグレッシブ・ライトウェイトな投機的復号化は、テキスト生成タスクにおける顕著な効率改善のために注目を集めている。
Clover-2は、RNNベースのドラフトモデルであり、アテンションデコーダ層モデルと同等の精度を達成するように設計されている。
論文 参考訳(メタデータ) (2024-08-01T03:43:32Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - ReDi: Efficient Learning-Free Diffusion Inference via Trajectory
Retrieval [68.7008281316644]
ReDiは学習不要なRetrievalベースの拡散サンプリングフレームワークである。
ReDi はモデル推論効率を 2 倍高速化することを示した。
論文 参考訳(メタデータ) (2023-02-05T03:01:28Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z) - Point Transformer for Shape Classification and Retrieval of 3D and ALS
Roof PointClouds [3.3744638598036123]
本稿では,リッチポイントクラウド表現の導出を目的とした,完全注意モデルであるem Point Transformerを提案する。
モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。
提案手法は、RoofN3Dデータセットの他の最先端モデルよりも優れており、ModelNet40ベンチマークで競合する結果を与え、目に見えない点の破損に対して高い堅牢性を示す。
論文 参考訳(メタデータ) (2020-11-08T08:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。