Fugu-MT 論文翻訳(概要): Is One GPU Enough? Pushing Image Generation at Higher-Resolutions with Foundation Models

論文の概要: Is One GPU Enough? Pushing Image Generation at Higher-Resolutions with Foundation Models

arxiv url: http://arxiv.org/abs/2406.07251v3
Date: Thu, 24 Oct 2024 12:31:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.476795
Title: Is One GPU Enough? Pushing Image Generation at Higher-Resolutions with Foundation Models
Title（参考訳）: 1つのGPUは十分か? 基礎モデルによる高解像度画像生成
Authors: Athanasios Tragakis, Marco Aversa, Chaitanya Kaul, Roderick Murray-Smith, Daniele Faccio,
Abstract要約: 我々はPixelsmithを紹介した。これはゼロショットのテキスト・ツー・イメージ生成フレームワークで、1つのGPUで高解像度の画像をサンプリングする。我々は,事前学習した拡散モデルの出力を1000倍に拡大できることを初めて示し,ギガピクセル画像生成への道を開いた。
参考スコア（独自算出の注目度）: 4.257210316104905
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we introduce Pixelsmith, a zero-shot text-to-image generative framework to sample images at higher resolutions with a single GPU. We are the first to show that it is possible to scale the output of a pre-trained diffusion model by a factor of 1000, opening the road for gigapixel image generation at no additional cost. Our cascading method uses the image generated at the lowest resolution as a baseline to sample at higher resolutions. For the guidance, we introduce the Slider, a tunable mechanism that fuses the overall structure contained in the first-generated image with enhanced fine details. At each inference step, we denoise patches rather than the entire latent space, minimizing memory demands such that a single GPU can handle the process, regardless of the image's resolution. Our experimental results show that Pixelsmith not only achieves higher quality and diversity compared to existing techniques, but also reduces sampling time and artifacts. The code for our work is available at https://github.com/Thanos-DB/Pixelsmith.
Abstract（参考訳）: 本稿では,1つのGPUで高解像度の画像のサンプリングを行うため,ゼロショットのテキスト・ツー・イメージ生成フレームワークであるPixelsmithを紹介する。我々は,事前学習した拡散モデルの出力を1000倍に拡大できることを初めて示し,ギガピクセル画像生成への道を開いた。カスケード法では, 最低分解能で生成した画像をベースラインとして, 高分解能で試料をサンプリングする。そこで本研究では,第1生成画像に含まれる全体構造を微細化して融合するスライダ(Slider)について紹介する。各推論ステップでは、イメージの解像度に関わらず、1つのGPUがプロセスを処理することができるように、メモリ要求を最小限に抑えながら、潜在空間全体ではなくパッチを飾る。実験結果から,Pixelsmithは既存の技術に比べて品質や多様性が向上するだけでなく,サンプリング時間やアーティファクトも低減できることがわかった。私たちの作業のコードはhttps://github.com/Thanos-DB/Pixelsmith.comで公開されています。

関連論文リスト

PixelDiT: Pixel Diffusion Transformers for Image Generation [48.456815413366535]
PixelDiTはDiffusion Transformers用の単一ステージのエンドツーエンドモデルである。オートエンコーダの必要性を排除し、ピクセル空間内で拡散過程を直接学習する。 ImageNet 256x256で1.61 FIDを達成し、既存のピクセル生成モデルを大きく上回っている。
論文参考訳（メタデータ） (2025-11-25T18:59:25Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
REDUCIO! Generating 1K Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。我々は、ビデオには画像よりもはるかに冗長な情報が含まれており、非常に少ない動きでエンコードできると主張している。我々は、映像を非常に圧縮された潜在空間に投影する画像条件付きVAEを設計し、コンテンツ画像に基づいてデコードする。
論文参考訳（メタデータ） (2024-11-20T18:59:52Z)
GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting [49.32327147931905]
単一A100 GPU上で2-4のスパース画像から高品質な3Dガウス像を0.23秒で予測できるスケーラブルな大規模再構成モデルGS-LRMを提案する。このモデルは非常に単純なトランスフォーマーベースアーキテクチャを特徴とし、入力されたイメージをパッチ化し、プリミティブなマルチビュー画像トークンをトランスフォーマーブロックのシーケンスに渡す。
論文参考訳（メタデータ） (2024-04-30T16:47:46Z)
CoordFill: Efficient High-Resolution Image Inpainting via Parameterized Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文参考訳（メタデータ） (2023-03-15T11:13:51Z)
CUF: Continuous Upsampling Filters [25.584630142930123]
本稿では,画像処理における最も重要な操作の一つとして,アップサンプリングについて考察する。本稿では、アップサンプリングカーネルをニューラルネットワークとしてパラメータ化することを提案する。このパラメータ化により、競合する任意のスケールの超解像アーキテクチャと比較して40倍のパラメータ数の削減が得られる。
論文参考訳（メタデータ） (2022-10-13T12:45:51Z)
Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文参考訳（メタデータ） (2022-04-14T17:59:31Z)
PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image Generation [88.55256389703082]
Pixelは画像生成のための有望な研究パラダイムである。本稿では,Pixel のような効率的な画像生成に向けたプログレッシブピクセル合成ネットワークを提案する。 Pixelは支出を大幅に減らし、2つのベンチマークデータセットで新しい最先端(SOTA)パフォーマンスを得る。
論文参考訳（メタデータ） (2022-04-02T10:55:11Z)
One-shot Ultra-high-Resolution Generative Adversarial Network That Synthesizes 16K Images On A Single GPU [1.9060575156739825]
OUR-GANは、単一のトレーニング画像から反復的でない16K画像を生成するワンショット生成対向ネットワークフレームワークである。 OUR-GANは12.5GBのGPUメモリと4Kの画像をわずか4.29GBで合成できる。 OUR-GANは、単一のコンシューマGPU上で反復的でないUHR画像を生成する最初のワンショット画像合成器である。
論文参考訳（メタデータ） (2022-02-28T13:48:41Z)
Spatial-Separated Curve Rendering Network for Efficient and High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。提案手法は従来の手法と比較して90%以上のパラメータを減少させる。提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文参考訳（メタデータ） (2021-09-13T07:20:16Z)
Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文参考訳（メタデータ） (2020-06-22T17:59:07Z)
Contextual Residual Aggregation for Ultra High-Resolution Image Inpainting [12.839962012888199]
そこで本稿では,CRA(Contextual Residual Aggregation)機構を提案する。 CRA機構は、コンテキストパッチからの残基の重み付けにより、欠落した内容に対して高周波残基を生成する。提案手法は,解像度512×512の小型画像に対して学習し,高解像度画像に対する推論を行い,良好な塗装品質を実現する。
論文参考訳（メタデータ） (2020-05-19T18:55:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。