Fugu-MT 論文翻訳(概要): Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images

論文の概要: Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images

arxiv url: http://arxiv.org/abs/2308.16582v2
Date: Mon, 11 Sep 2023 07:44:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 18:27:30.228374
Title: Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images
Title（参考訳）: any-size-diffusion:任意のサイズのhd画像の効率的なテキスト駆動合成に向けて
Authors: Qingping Zheng, Yuanfan Guo, Jiankang Deng, Jianhua Han, Ying Li, Songcen Xu, Hang Xu
Abstract要約: テキストと画像の合成に使用される生成モデルである安定拡散は、様々なサイズの画像を生成する際にしばしば構成問題に遭遇する。そこで我々は,任意の大きさの画像を効率よく生成するために,Any-Size-Diffusion (ASD) という2段階のパイプラインを提案する。 ASDは任意のサイズの画像を生成することができ、従来のタイル付きアルゴリズムと比較して推論時間を2倍削減できることを示す。
参考スコア（独自算出の注目度）: 56.17404812357676
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stable diffusion, a generative model used in text-to-image synthesis, frequently encounters resolution-induced composition problems when generating images of varying sizes. This issue primarily stems from the model being trained on pairs of single-scale images and their corresponding text descriptions. Moreover, direct training on images of unlimited sizes is unfeasible, as it would require an immense number of text-image pairs and entail substantial computational expenses. To overcome these challenges, we propose a two-stage pipeline named Any-Size-Diffusion (ASD), designed to efficiently generate well-composed images of any size, while minimizing the need for high-memory GPU resources. Specifically, the initial stage, dubbed Any Ratio Adaptability Diffusion (ARAD), leverages a selected set of images with a restricted range of ratios to optimize the text-conditional diffusion model, thereby improving its ability to adjust composition to accommodate diverse image sizes. To support the creation of images at any desired size, we further introduce a technique called Fast Seamless Tiled Diffusion (FSTD) at the subsequent stage. This method allows for the rapid enlargement of the ASD output to any high-resolution size, avoiding seaming artifacts or memory overloads. Experimental results on the LAION-COCO and MM-CelebA-HQ benchmarks demonstrate that ASD can produce well-structured images of arbitrary sizes, cutting down the inference time by 2x compared to the traditional tiled algorithm.
Abstract（参考訳）: テキストと画像の合成に使用される生成モデルである安定拡散は、様々なサイズの画像を生成する際にしばしば解像度による合成問題に遭遇する。この問題は、主にシングルスケールイメージと対応するテキスト記述のペアでトレーニングされているモデルに起因している。さらに、無制限サイズの画像の直接訓練は、膨大な数のテキストイメージペアが必要であり、かなりの計算コストを必要とするため、実現不可能である。これらの課題を克服するために、高メモリGPUリソースの必要性を最小限に抑えつつ、任意のサイズのよく構成された画像を効率よく生成する、Any-Size-Diffusion (ASD)という2段階のパイプラインを提案する。具体的には、ARAD(Any Ratio Adaptability Diffusion)と呼ばれる初期ステージでは、選択された画像セットに制限範囲を限定して、テキスト条件拡散モデルを最適化し、様々な画像サイズに対応するように構成を調整する能力を向上させる。任意のサイズの画像の作成を支援するため,Fast Seamless Tiled Diffusion (FSTD) と呼ばれる手法をさらに導入する。この方法では、シーミングアーティファクトやメモリ過負荷を避けるため、asd出力を任意の高解像度サイズに迅速に拡大することができる。 LAION-COCO と MM-CelebA-HQ のベンチマークによる実験結果から、ASD は任意の大きさのよく構造化された画像を生成でき、従来のタイル付きアルゴリズムと比較して推論時間を2倍削減できることが示された。

関連論文リスト

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders [74.72147962028265]
表現オートエンコーダ(RAE)は、ImageNet上で拡散モデリングにおいて明確な利点を示している。本稿では,このフレームワークが大規模でフリーフォームなテキスト・ツー・イメージ(T2I)生成に拡張できるかどうかを検討する。
論文参考訳（メタデータ） (2026-01-22T18:58:16Z)
Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets [19.950913420708734]
本稿では,初期拡散段階における意味的類似性と共有性に基づいてクラスタが促進する学習自由アプローチを提案する。提案手法は,既存のパイプラインとシームレスに統合し,プロンプトセットでスケールし,大規模テキスト・画像生成の環境・経済的負担を軽減する。
論文参考訳（メタデータ） (2025-08-28T17:35:03Z)
FlowTok: Flowing Seamlessly Across Text and Image Tokens [20.629139911638646]
FlowTokは、コンパクトな1Dトークン表現に画像をエンコードすることで、テキストとイメージをシームレスに流れるフレームワークである。 256の解像度で遅延空間のサイズを3.3倍に減らし、複雑な条件付け機構やノイズスケジューリングを必要としない。コンパクトな1Dトークンを中心にした合理化アーキテクチャにより、FlowTokはメモリ効率が高く、トレーニングリソースが大幅に少なくなり、より高速なサンプリング速度を実現し、最先端のモデルに匹敵するパフォーマンスを提供する。
論文参考訳（メタデータ） (2025-03-13T18:06:13Z)
ZoomLDM: Latent Diffusion Model for multi-scale image generation [57.639937071834986]
複数のスケールで画像を生成するための拡散モデルZoomLDMを提案する。我々のアプローチの中心は、自己教師あり学習(SSL)埋め込みを利用した、新たな拡大対応条件付け機構である。 ZoomLDMは、すべてのスケールにわたる最先端の画像生成品質を実現し、大きな画像全体のサムネイルを生成するデータスカース設定に優れています。
論文参考訳（メタデータ） (2024-11-25T22:39:22Z)
One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。 OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文参考訳（メタデータ） (2024-11-25T12:11:05Z)
Adapting Diffusion Models for Improved Prompt Compliance and Controllable Image Synthesis [43.481539150288434]
この作品は新しい家族を紹介します。因子グラフ拡散モデル(FG-DM) FG-DMは結合分布をモデル化する。イメージやコンディショニング変数、例えばセマンティック、スケッチなどです。因子グラフ分解による奥行きや正常な地図です
論文参考訳（メタデータ） (2024-10-29T00:54:00Z)
High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。 SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。 DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文参考訳（メタデータ） (2024-10-14T02:49:23Z)
OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文参考訳（メタデータ） (2024-06-14T13:16:18Z)
Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文参考訳（メタデータ） (2024-03-15T12:45:40Z)
Collaborative Score Distillation for Consistent Visual Synthesis [70.29294250371312]
コラボレーティブスコア蒸留 (CSD) は, 定常変分勾配Descence (SVGD) に基づく。本研究では,パノラマ画像,ビデオ,3Dシーンの視覚的編集を含む,様々な作業におけるCDDの有効性を示す。本研究は,サンプル間の整合性を向上し,テキスト・画像拡散モデルの適用性を高めるための汎用手法として,CDDの能力について述べる。
論文参考訳（メタデータ） (2023-07-04T17:31:50Z)
Raising The Limit Of Image Rescaling Using Auxiliary Encoding [7.9700865143145485]
近年、IRNのような画像再スケーリングモデルは、INNの双方向性を利用して、画像アップスケーリングのパフォーマンス限界を押し上げている。本稿では,画像再スケーリング性能の限界をさらに押し上げるために,補助符号化モジュールを提案する。
論文参考訳（メタデータ） (2023-03-12T20:49:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。