論文の概要: HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance
- arxiv url: http://arxiv.org/abs/2504.06232v2
- Date: Fri, 16 May 2025 13:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:12.682872
- Title: HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance
- Title(参考訳): HiFlow:フロー調整誘導によるトレーニング不要な高分解能画像生成
- Authors: Jiazi Bu, Pengyang Ling, Yujie Zhou, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang,
- Abstract要約: HiFlowはトレーニング不要でモデルに依存しないフレームワークで、事前トレーニングされたフローモデルの解像度ポテンシャルを解放する。
HiFlowはT2Iモデルの高解像度画像合成の品質を大幅に向上させる。
- 参考スコア(独自算出の注目度): 70.69373563281324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) diffusion/flow models have drawn considerable attention recently due to their remarkable ability to deliver flexible visual creations. Still, high-resolution image synthesis presents formidable challenges due to the scarcity and complexity of high-resolution content. Recent approaches have investigated training-free strategies to enable high-resolution image synthesis with pre-trained models. However, these techniques often struggle with generating high-quality visuals and tend to exhibit artifacts or low-fidelity details, as they typically rely solely on the endpoint of the low-resolution sampling trajectory while neglecting intermediate states that are critical for preserving structure and synthesizing finer detail. To this end, we present HiFlow, a training-free and model-agnostic framework to unlock the resolution potential of pre-trained flow models. Specifically, HiFlow establishes a virtual reference flow within the high-resolution space that effectively captures the characteristics of low-resolution flow information, offering guidance for high-resolution generation through three key aspects: initialization alignment for low-frequency consistency, direction alignment for structure preservation, and acceleration alignment for detail fidelity. By leveraging such flow-aligned guidance, HiFlow substantially elevates the quality of high-resolution image synthesis of T2I models and demonstrates versatility across their personalized variants. Extensive experiments validate HiFlow's capability in achieving superior high-resolution image quality over state-of-the-art methods.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)の拡散/フローモデルは、フレキシブルな視覚的生成を実現する能力に際し、近年大きな注目を集めている。
しかし、高分解能画像合成は、高分解能コンテンツの不足と複雑さのため、非常に困難な課題を呈している。
近年,事前学習モデルによる高分解能画像合成を実現するための学習自由戦略が検討されている。
しかしながら、これらの技術は、しばしば高品質な視覚を生成することに苦慮し、通常、低解像度サンプリング軌道の終端のみに依存するため、構造を保存し、より詳細な細部を合成するのに重要な中間状態を無視しているため、アーティファクトや低忠実度の詳細を示す傾向がある。
この目的のために、トレーニング不要でモデルに依存しないフレームワークであるHiFlowを紹介し、事前学習されたフローモデルの解像度ポテンシャルを解放する。
特に、HiFlowは、低周波整合性の初期化アライメントアライメント、構造保存のための方向アライメント、細部忠実性のためのアクセラレーションアライメントという3つの重要な側面を通じて、低分解能フロー情報の特徴を効果的に捉えた、高分解能空間内の仮想参照フローを確立する。
このようなフローアライメントガイダンスを活用することで、HiFlowはT2Iモデルの高解像度画像合成の品質を大幅に高め、パーソナライズされたバリエーション間の汎用性を示す。
大規模な実験は、最先端の手法よりも優れた高解像度画像品質を実現するためのHiFlowの能力を検証する。
関連論文リスト
- HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling [1.9474278832087901]
HiWaveは、超高解像度画像合成における視覚的忠実度と構造的コヒーレンスを大幅に向上させる、トレーニング不要でゼロショットのアプローチである。
ユーザによる調査では、HiWaveのパフォーマンスが80%以上の比較で最先端の代替品よりも好まれていたことが確認された。
論文 参考訳(メタデータ) (2025-06-25T13:58:37Z) - Align Your Flow: Scaling Continuous-Time Flow Map Distillation [63.927438959502226]
フローマップは、任意の2つのノイズレベルを1ステップで接続し、すべてのステップカウントで有効に保ちます。
画像生成ベンチマークにおいて、Align Your Flowと呼ばれるフローマップモデルを広範囲に検証する。
テキスト条件付き合成において、既存の非横断的訓練された数ステップのサンプルよりも優れたテキスト間フローマップモデルを示す。
論文 参考訳(メタデータ) (2025-06-17T15:06:07Z) - STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis [44.2114053357308]
本稿では,高分解能画像合成において高い性能を実現する正規化フローに基づくスケーラブルな生成モデルを提案する。
STARFlowの中核はTransformer Autoregressive Flow (TARFlow)であり、これは流れの正規化の表現力とAutoregressive Transformerの構造的モデリング能力を組み合わせたものである。
論文 参考訳(メタデータ) (2025-06-06T17:58:39Z) - FlashVideo: Flowing Fidelity to Detail for Efficient High-Resolution Video Generation [61.61415607972597]
DiT拡散モデルは、モデルキャパシティとデータスケールのスケーラビリティを活用して、テキスト・ビデオ生成において大きな成功を収めた。
しかし、テキストプロンプトに一致した高い内容と動きの忠実度は、しばしば大きなモデルパラメータとかなりの数の関数評価(NFE)を必要とする。
本稿では,モデルキャパシティとNFEを戦略的に割り当て,生成精度と品質のバランスをとる新しい2つのステージフレームワークであるFlashVideoを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:59:59Z) - FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion [50.43304425256732]
FreeScaleは、スケール融合による高解像度のビジュアル生成を可能にする、チューニング不要な推論パラダイムである。
画像モデルとビデオモデルの両方において高解像度の視覚生成機能を拡張する。
論文 参考訳(メタデータ) (2024-12-12T18:59:59Z) - I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow [50.55228067778858]
Rectified Flow Transformer (RFT) は優れたトレーニングと推論の効率を提供する。
テキスト・ツー・イメージ RFT の解像度を最大化する I-Max フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T02:08:23Z) - UltraPixel: Advancing Ultra-High-Resolution Image Synthesis to New Peaks [36.61645124563195]
カスケード拡散モデルを用いて高画質画像を複数解像度で生成する新しいアーキテクチャであるUltraPixelを提案する。
後半の認知段階における低分解能画像のセマンティクスに富んだ表現を用いて、高精細高分解能画像の全生成を導く。
我々のモデルは、データ要求を減らして高速なトレーニングを行い、フォトリアリスティックな高解像度画像を生成する。
論文 参考訳(メタデータ) (2024-07-02T11:02:19Z) - FlowIE: Efficient Image Enhancement via Rectified Flow [71.6345505427213]
FlowIEはフローベースのフレームワークであり、基本的な分布から高品質な画像への直線パスを推定する。
私たちのコントリビューションは、合成および実世界のデータセットに関する包括的な実験を通じて、厳密に検証されています。
論文 参考訳(メタデータ) (2024-06-01T17:29:29Z) - FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:33Z) - CasSR: Activating Image Power for Real-World Image Super-Resolution [24.152495730507823]
超解像のためのカスケード拡散法CasSRは、高精細でリアルな画像を生成するために設計された新しい方法である。
低解像度画像からの情報の抽出を最適化するカスケード制御可能な拡散モデルを開発した。
論文 参考訳(メタデータ) (2024-03-18T03:59:43Z) - GMFlow: Learning Optical Flow via Global Matching [124.57850500778277]
光フロー推定学習のためのGMFlowフレームワークを提案する。
機能拡張のためのカスタマイズトランスフォーマー、グローバル機能マッチングのための相関層とソフトマックス層、フロー伝搬のための自己保持層である。
我々の新しいフレームワークは、挑戦的なSintelベンチマークにおいて、32項目RAFTのパフォーマンスより優れています。
論文 参考訳(メタデータ) (2021-11-26T18:59:56Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。