論文の概要: HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance
- arxiv url: http://arxiv.org/abs/2504.06232v1
- Date: Tue, 08 Apr 2025 17:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:31.053622
- Title: HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance
- Title(参考訳): HiFlow:フロー調整誘導によるトレーニング不要な高分解能画像生成
- Authors: Jiazi Bu, Pengyang Ling, Yujie Zhou, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang,
- Abstract要約: HiFlowはトレーニング不要でモデルに依存しないフレームワークで、事前トレーニングされたフローモデルの解像度ポテンシャルを解放する。
HiFlowはT2Iモデルの高解像度画像合成の品質を大幅に向上させる。
- 参考スコア(独自算出の注目度): 70.69373563281324
- License:
- Abstract: Text-to-image (T2I) diffusion/flow models have drawn considerable attention recently due to their remarkable ability to deliver flexible visual creations. Still, high-resolution image synthesis presents formidable challenges due to the scarcity and complexity of high-resolution content. To this end, we present HiFlow, a training-free and model-agnostic framework to unlock the resolution potential of pre-trained flow models. Specifically, HiFlow establishes a virtual reference flow within the high-resolution space that effectively captures the characteristics of low-resolution flow information, offering guidance for high-resolution generation through three key aspects: initialization alignment for low-frequency consistency, direction alignment for structure preservation, and acceleration alignment for detail fidelity. By leveraging this flow-aligned guidance, HiFlow substantially elevates the quality of high-resolution image synthesis of T2I models and demonstrates versatility across their personalized variants. Extensive experiments validate HiFlow's superiority in achieving superior high-resolution image quality over current state-of-the-art methods.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)の拡散/フローモデルは、フレキシブルな視覚的生成を実現する能力に際し、近年大きな注目を集めている。
しかし、高分解能画像合成は、高分解能コンテンツの不足と複雑さのため、非常に困難な課題を呈している。
この目的のために、トレーニング不要でモデルに依存しないフレームワークであるHiFlowを紹介し、事前学習されたフローモデルの解像度ポテンシャルを解放する。
特に、HiFlowは、低周波整合性の初期化アライメントアライメント、構造保存のための方向アライメント、細部忠実性のためのアクセラレーションアライメントという3つの重要な側面を通じて、低分解能フロー情報の特徴を効果的に捉えた、高分解能空間内の仮想参照フローを確立する。
このフローアラインガイダンスを活用することで、HiFlowはT2Iモデルの高解像度画像合成の品質を大幅に高め、パーソナライズされたバリエーション間の汎用性を示す。
広汎な実験は、現在の最先端手法よりも優れた高解像度画像品質を実現する上で、HiFlowの優位性を検証する。
関連論文リスト
- FlashVideo: Flowing Fidelity to Detail for Efficient High-Resolution Video Generation [61.61415607972597]
DiT拡散モデルは、モデルキャパシティとデータスケールのスケーラビリティを活用して、テキスト・ビデオ生成において大きな成功を収めた。
しかし、テキストプロンプトに一致した高い内容と動きの忠実度は、しばしば大きなモデルパラメータとかなりの数の関数評価(NFE)を必要とする。
本稿では,モデルキャパシティとNFEを戦略的に割り当て,生成精度と品質のバランスをとる新しい2つのステージフレームワークであるFlashVideoを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:59:59Z) - I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow [50.55228067778858]
Rectified Flow Transformer (RFT) は優れたトレーニングと推論の効率を提供する。
テキスト・ツー・イメージ RFT の解像度を最大化する I-Max フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T02:08:23Z) - UltraPixel: Advancing Ultra-High-Resolution Image Synthesis to New Peaks [36.61645124563195]
カスケード拡散モデルを用いて高画質画像を複数解像度で生成する新しいアーキテクチャであるUltraPixelを提案する。
後半の認知段階における低分解能画像のセマンティクスに富んだ表現を用いて、高精細高分解能画像の全生成を導く。
我々のモデルは、データ要求を減らして高速なトレーニングを行い、フォトリアリスティックな高解像度画像を生成する。
論文 参考訳(メタデータ) (2024-07-02T11:02:19Z) - FlowIE: Efficient Image Enhancement via Rectified Flow [71.6345505427213]
FlowIEはフローベースのフレームワークであり、基本的な分布から高品質な画像への直線パスを推定する。
私たちのコントリビューションは、合成および実世界のデータセットに関する包括的な実験を通じて、厳密に検証されています。
論文 参考訳(メタデータ) (2024-06-01T17:29:29Z) - CasSR: Activating Image Power for Real-World Image Super-Resolution [24.152495730507823]
超解像のためのカスケード拡散法CasSRは、高精細でリアルな画像を生成するために設計された新しい方法である。
低解像度画像からの情報の抽出を最適化するカスケード制御可能な拡散モデルを開発した。
論文 参考訳(メタデータ) (2024-03-18T03:59:43Z) - GMFlow: Learning Optical Flow via Global Matching [124.57850500778277]
光フロー推定学習のためのGMFlowフレームワークを提案する。
機能拡張のためのカスタマイズトランスフォーマー、グローバル機能マッチングのための相関層とソフトマックス層、フロー伝搬のための自己保持層である。
我々の新しいフレームワークは、挑戦的なSintelベンチマークにおいて、32項目RAFTのパフォーマンスより優れています。
論文 参考訳(メタデータ) (2021-11-26T18:59:56Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。