Fugu-MT 論文翻訳(概要): HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

論文の概要: HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

arxiv url: http://arxiv.org/abs/2603.07815v1
Date: Sun, 08 Mar 2026 21:34:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:15.299185
Title: HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration
Title（参考訳）: HybridStitch: 拡散加速のためのピクセルとタイムステップレベルのモデルスティッチ
Authors: Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu,
Abstract要約: 我々は、編集のように生成を扱う新しいT2I生成パラダイムであるHybridStitchを提案する。 HybridStitchは、画像全体を2つの領域に分割する。1つはレンダリングが比較的簡単で、もう1つはより複雑で、大きめのモデルで精細化する必要がある。 HybridStitchは、Stable Diffusion 3上で1.83$times$ Speedupを達成する。
参考スコア（独自算出の注目度）: 6.3289777476721625
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have demonstrated a remarkable ability in Text-to-Image (T2I) generation applications. Despite the advanced generation output, they suffer from heavy computation overhead, especially for large models that contain tens of billions of parameters. Prior work has illustrated that replacing part of the denoising steps with a smaller model still maintains the generation quality. However, these methods only focus on saving computation for some timesteps, ignoring the difference in compute demand within one timestep. In this work, we propose HybridStitch, a new T2I generation paradigm that treats generation like editing. Specifically, we introduce a hybrid stage that jointly incorporates both the large model and the small model. HybridStitch separates the entire image into two regions: one that is relatively easy to render, enabling an early transition to the smaller model, and another that is more complex and therefore requires refinement by the large model. HybridStitch employs the small model to construct a coarse sketch while exploiting the large model to edit and refine the complex regions. According to our evaluation, HybridStitch achieves 1.83$\times$ speedup on Stable Diffusion 3, which is faster than all existing mixture of model methods.
Abstract（参考訳）: 拡散モデルはテキスト・ツー・イメージ(T2I)生成アプリケーションにおいて顕著な能力を示している。先進的な生成出力にもかかわらず、特に数千億のパラメータを含む大規模なモデルでは、計算オーバーヘッドが重い。以前の作業では、デノナイジングステップの一部を小さなモデルに置き換えても、生成品質は維持されている、と説明されていた。しかし、これらの手法は、計算要求の差を1段階以内に無視する、いくつかの時間ステップにおける計算の節約にのみ焦点をあてている。本稿では,編集のように生成を処理する新しいT2I生成パラダイムであるHybridStitchを提案する。具体的には,大型モデルと小型モデルの両方を併用したハイブリッドステージを提案する。 HybridStitchはイメージ全体を2つの領域に分割する。1つはレンダリングが比較的容易で、より小さなモデルへの早期移行を可能にする。 HybridStitchは、複雑な領域を編集および洗練するために大きなモデルを活用しながら、粗いスケッチを構築するために、小さなモデルを使用している。我々の評価によると、HybridStitchは安定拡散3の1.83$\times$スピードアップを達成した。

関連論文リスト

Navigating the Accuracy-Size Trade-Off with Flexible Model Merging [15.497612580389479]
我々は、新しいデータフリーモデルマージフレームワークFlexMergeを提案する。異なる大きさのマージモデルを柔軟に生成し、単一のマージモデルから完全なスペクトルにまたがり、すべての微調整モデルを保持する。 FlexMergeを使って、異なるアルゴリズムの精度と大きさのトレードオフを体系的に特徴づける。
論文参考訳（メタデータ） (2025-05-29T07:50:32Z)
DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging [32.97010533998294]
スタイルベクトルの制御の下で任意のスタイルの画像を正確に生成できる、スタイルプロンプタブルな画像生成パイプラインを提案する。この設計に基づいて,複数のモデルを1つの汎用T2Iモデルに圧縮する,スコア蒸留に基づくモデルマージパラダイム(DMM)を提案する。実験により、DMMは複数の教師モデルからの知識をコンパクトに再構成し、制御可能な任意のスタイルの生成を実現することができることを示した。
論文参考訳（メタデータ） (2025-04-16T15:09:45Z)
SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training [77.681908636429]
T2I(Text-to-image)モデルは、大きなモデルサイズ、遅い、低品質なモバイルデバイス生成など、いくつかの制限に直面している。本稿では,モバイルプラットフォーム上で高解像度かつ高画質な画像を生成する,超小型かつ高速なT2Iモデルを開発することを目的とする。
論文参考訳（メタデータ） (2024-12-12T18:59:53Z)
M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文参考訳（メタデータ） (2024-11-15T18:54:42Z)
LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。蒸留したLinFusionは,元のSDと同等以上の性能を示す。 SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文参考訳（メタデータ） (2024-09-03T17:54:39Z)
MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-15T17:55:56Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文参考訳（メタデータ） (2023-03-02T18:30:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。