論文の概要: Generative Powers of Ten
- arxiv url: http://arxiv.org/abs/2312.02149v2
- Date: Wed, 22 May 2024 00:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 19:54:19.302532
- Title: Generative Powers of Ten
- Title(参考訳): 十の創造力
- Authors: Xiaojuan Wang, Janne Kontkanen, Brian Curless, Steve Seitz, Ira Kemelmacher, Ben Mildenhall, Pratul Srinivasan, Dor Verbin, Aleksander Holynski,
- Abstract要約: 本稿では,複数の画像スケールにまたがる一貫したコンテンツを生成するために,テキスト・ツー・イメージ・モデルを用いる手法を提案する。
マルチスケール拡散サンプリングを共同で行うことで実現した。
本手法は従来の超解像法よりも深いズームレベルを実現する。
- 参考スコア(独自算出の注目度): 60.6740997942711
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a method that uses a text-to-image model to generate consistent content across multiple image scales, enabling extreme semantic zooms into a scene, e.g., ranging from a wide-angle landscape view of a forest to a macro shot of an insect sitting on one of the tree branches. We achieve this through a joint multi-scale diffusion sampling approach that encourages consistency across different scales while preserving the integrity of each individual sampling process. Since each generated scale is guided by a different text prompt, our method enables deeper levels of zoom than traditional super-resolution methods that may struggle to create new contextual structure at vastly different scales. We compare our method qualitatively with alternative techniques in image super-resolution and outpainting, and show that our method is most effective at generating consistent multi-scale content.
- Abstract(参考訳): 本稿では,複数の画像スケールにまたがる一貫したコンテンツを生成するためにテキスト・ツー・イメージモデルを用いて,森林の広角な景観から,木の枝の1つに座る昆虫のマクロショットまで,シーンへの極端な意味的ズームを可能にする手法を提案する。
我々は,各サンプリングプロセスの整合性を維持しつつ,異なるスケールでの整合性を促進する共同多スケール拡散サンプリング手法によりこれを達成した。
生成した各スケールは異なるテキストプロンプトでガイドされるため、従来の超解像法よりも深いレベルのズームが可能であり、全く異なるスケールで新しいコンテキスト構造を作成するのに苦労する可能性がある。
我々は,画像の超解像・露光における代替手法と定性的に比較し,この手法が一貫したマルチスケールコンテンツを生成する上で最も有効であることを示す。
関連論文リスト
- Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial
Network for an end-to-end image translation [18.93434486338439]
SCONE-GANはリアルで多様な風景画像を生成する学習に有効であることが示されている。
より現実的で多様な画像生成のために、スタイル参照画像を導入します。
画像から画像への変換と屋外画像のスタイリングのための提案アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-11-07T10:29:16Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Diversifying Semantic Image Synthesis and Editing via Class- and
Layer-wise VAEs [8.528384027684192]
本稿では,ローカルからグローバルレベルの各オブジェクトクラスに対するフレキシブルな制御を可能にする,変動型オートエンコーダフレームワークのクラスおよびレイヤワイズ拡張を提案する。
提案手法は,最先端の手法と比較して,可塑性かつ多彩な画像を生成する。
論文 参考訳(メタデータ) (2021-06-25T04:12:05Z) - Bridging the Visual Gap: Wide-Range Image Blending [16.464837892640812]
広域画像ブレンドを実現するための効果的なディープラーニングモデルを提案する。
提案手法が視覚的に魅力的な結果をもたらすことを実験的に実証した。
論文 参考訳(メタデータ) (2021-03-28T15:07:45Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z) - Nested Scale Editing for Conditional Image Synthesis [19.245119912119947]
本稿では,潜在コード空間における階層化ナビゲーションを実現する画像合成手法を提案する。
ごく少数の部分的あるいは低解像度の画像で、我々のアプローチは一貫して最先端の画像よりも優れています。
論文 参考訳(メタデータ) (2020-06-03T04:29:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。