論文の概要: Generative Powers of Ten
- arxiv url: http://arxiv.org/abs/2312.02149v2
- Date: Wed, 22 May 2024 00:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 19:54:19.302532
- Title: Generative Powers of Ten
- Title(参考訳): 十の創造力
- Authors: Xiaojuan Wang, Janne Kontkanen, Brian Curless, Steve Seitz, Ira Kemelmacher, Ben Mildenhall, Pratul Srinivasan, Dor Verbin, Aleksander Holynski,
- Abstract要約: 本稿では,複数の画像スケールにまたがる一貫したコンテンツを生成するために,テキスト・ツー・イメージ・モデルを用いる手法を提案する。
マルチスケール拡散サンプリングを共同で行うことで実現した。
本手法は従来の超解像法よりも深いズームレベルを実現する。
- 参考スコア(独自算出の注目度): 60.6740997942711
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a method that uses a text-to-image model to generate consistent content across multiple image scales, enabling extreme semantic zooms into a scene, e.g., ranging from a wide-angle landscape view of a forest to a macro shot of an insect sitting on one of the tree branches. We achieve this through a joint multi-scale diffusion sampling approach that encourages consistency across different scales while preserving the integrity of each individual sampling process. Since each generated scale is guided by a different text prompt, our method enables deeper levels of zoom than traditional super-resolution methods that may struggle to create new contextual structure at vastly different scales. We compare our method qualitatively with alternative techniques in image super-resolution and outpainting, and show that our method is most effective at generating consistent multi-scale content.
- Abstract(参考訳): 本稿では,複数の画像スケールにまたがる一貫したコンテンツを生成するためにテキスト・ツー・イメージモデルを用いて,森林の広角な景観から,木の枝の1つに座る昆虫のマクロショットまで,シーンへの極端な意味的ズームを可能にする手法を提案する。
我々は,各サンプリングプロセスの整合性を維持しつつ,異なるスケールでの整合性を促進する共同多スケール拡散サンプリング手法によりこれを達成した。
生成した各スケールは異なるテキストプロンプトでガイドされるため、従来の超解像法よりも深いレベルのズームが可能であり、全く異なるスケールで新しいコンテキスト構造を作成するのに苦労する可能性がある。
我々は,画像の超解像・露光における代替手法と定性的に比較し,この手法が一貫したマルチスケールコンテンツを生成する上で最も有効であることを示す。
関連論文リスト
- A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation [12.588962705218103]
既存のパノラマ画像生成フレームワークを複数の解像度レベルまで拡張するプラグイン・アンド・プレイモジュールであるMulti-Scale Diffusion(MSD)フレームワークを紹介した。
勾配降下法を利用して,低分解能画像の構造情報を高分解能出力に効果的に組み込む。
論文 参考訳(メタデータ) (2024-10-24T15:18:51Z) - Self-Supervised Multi-Scale Network for Blind Image Deblurring via Alternating Optimization [12.082424048578753]
本稿では,遅延画像とぼやけたカーネルを共同で推定する,自己監督型マルチスケールブラインド画像デブロアリング手法を提案する。
複数スケールにわたる協調的推定により,計算集約的な粗大な伝播や画像の劣化を回避できる。
論文 参考訳(メタデータ) (2024-09-02T07:08:17Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Diversifying Semantic Image Synthesis and Editing via Class- and
Layer-wise VAEs [8.528384027684192]
本稿では,ローカルからグローバルレベルの各オブジェクトクラスに対するフレキシブルな制御を可能にする,変動型オートエンコーダフレームワークのクラスおよびレイヤワイズ拡張を提案する。
提案手法は,最先端の手法と比較して,可塑性かつ多彩な画像を生成する。
論文 参考訳(メタデータ) (2021-06-25T04:12:05Z) - Bridging the Visual Gap: Wide-Range Image Blending [16.464837892640812]
広域画像ブレンドを実現するための効果的なディープラーニングモデルを提案する。
提案手法が視覚的に魅力的な結果をもたらすことを実験的に実証した。
論文 参考訳(メタデータ) (2021-03-28T15:07:45Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。