論文の概要: Continuous-Multiple Image Outpainting in One-Step via Positional Query
and A Diffusion-based Approach
- arxiv url: http://arxiv.org/abs/2401.15652v1
- Date: Sun, 28 Jan 2024 13:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 17:01:38.085642
- Title: Continuous-Multiple Image Outpainting in One-Step via Positional Query
and A Diffusion-based Approach
- Title(参考訳): 位置問合せと拡散ベースアプローチによるワンステップの連続多重化
- Authors: Shaofeng Zhang, Jinfa Huang, Qiang Zhou, Zhibin Wang, Fan Wang, Jiebo
Luo, Junchi Yan
- Abstract要約: 本稿では, 文献で未解決の2つの方向において, 画像出力の技術的フロンティアを推し進める。
トレーニング済みのバックボーンネットワークに依存しない手法を開発した。
提案手法(PQDiff)を公開ベンチマークで評価し,最先端手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 104.2588068730834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image outpainting aims to generate the content of an input sub-image beyond
its original boundaries. It is an important task in content generation yet
remains an open problem for generative models. This paper pushes the technical
frontier of image outpainting in two directions that have not been resolved in
literature: 1) outpainting with arbitrary and continuous multiples (without
restriction), and 2) outpainting in a single step (even for large expansion
multiples). Moreover, we develop a method that does not depend on a pre-trained
backbone network, which is in contrast commonly required by the previous SOTA
outpainting methods. The arbitrary multiple outpainting is achieved by
utilizing randomly cropped views from the same image during training to capture
arbitrary relative positional information. Specifically, by feeding one view
and positional embeddings as queries, we can reconstruct another view. At
inference, we generate images with arbitrary expansion multiples by inputting
an anchor image and its corresponding positional embeddings. The one-step
outpainting ability here is particularly noteworthy in contrast to previous
methods that need to be performed for $N$ times to obtain a final multiple
which is $N$ times of its basic and fixed multiple. We evaluate the proposed
approach (called PQDiff as we adopt a diffusion-based generator as our
embodiment, under our proposed \textbf{P}ositional \textbf{Q}uery scheme) on
public benchmarks, demonstrating its superior performance over state-of-the-art
approaches. Specifically, PQDiff achieves state-of-the-art FID scores on the
Scenery (\textbf{21.512}), Building Facades (\textbf{25.310}), and WikiArts
(\textbf{36.212}) datasets. Furthermore, under the 2.25x, 5x and 11.7x
outpainting settings, PQDiff only takes \textbf{40.6\%}, \textbf{20.3\%} and
\textbf{10.2\%} of the time of the benchmark state-of-the-art (SOTA) method.
- Abstract(参考訳): Image outpaintingは、入力サブイメージの内容を元の境界を越えて生成することを目的としている。
これはコンテンツ生成において重要なタスクであるが、生成モデルに対するオープンな問題である。
本稿は、文献で未解決の2つの方向における画像出力の技術的フロンティアを推し進める。
1)任意かつ連続的な倍数で(制限なしで)塗装し、
2) 一つのステップで(大きな拡張倍数であっても)上達する。
さらに,従来のSOTA出力方式と対照的に,事前学習したバックボーンネットワークに依存しない手法を開発した。
トレーニング中に同じ画像からランダムにトリミングされたビューを利用して任意の相対的位置情報をキャプチャすることで、任意の多重露光を実現する。
具体的には、あるビューと位置埋め込みをクエリとして与えることで、別のビューを再構築できる。
推定では、アンカー画像とその対応する位置埋め込みを入力して任意の拡張倍数の画像を生成する。
ここでの1ステップのアウトペイント機能は、基本および固定された多重の$N$倍の最終的な倍数を得るために$N$倍で実行する必要がある従来のメソッドとは対照的に、特に注目すべきである。
提案手法(pqdiffと呼ばれる)を具体例として,公開ベンチマークで提案手法である \textbf{p}ositional \textbf{q}uery を用いて評価し,最先端手法よりも優れた性能を示す。
具体的には、PQDiffはScenery (\textbf{21.512})、Building Facades (\textbf{25.310})、WikiArts (\textbf{36.212})データセットの最先端のFIDスコアを達成している。
さらに、2.25x, 5x, 11.7x では、pqdiff はベンチマークのstate-of-the-art (sota) メソッドの時間のみ \textbf{40.6\%}, \textbf{20.3\%}, \textbf{10.2\%} を取る。
関連論文リスト
- CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - Cylin-Painting: Seamless {360\textdegree} Panoramic Image Outpainting
and Beyond [136.18504104345453]
塗り絵と塗り絵の間に有意義な協調関係を持つキリン塗り絵の枠組みを提示する。
提案アルゴリズムは、オブジェクト検出、深さ推定、画像超解像などの他のパノラマ視覚タスクに効果的に拡張できる。
論文 参考訳(メタデータ) (2022-04-18T21:18:49Z) - MISF: Multi-level Interactive Siamese Filtering for High-Fidelity Image
Inpainting [35.79101039727397]
画像インペイントにおける画像レベルの予測フィルタリングの利点と課題について検討する。
カーネル予測分岐(KPB)とセマンティック・アンド・イメージ・フィルタリング分岐(SIFB)の2つの分岐を含む,MISF(Multilevel Interactive Siamese Filtering)と呼ばれる新しいフィルタリング手法を提案する。
提案手法は,4つの指標,すなわちL1,PSNR,SSIM,LPIPSにおいて,最先端のベースラインよりも優れる。
論文 参考訳(メタデータ) (2022-03-12T01:32:39Z) - RePaint: Inpainting using Denoising Diffusion Probabilistic Models [161.74792336127345]
Free-form Inpaintingは任意のバイナリマスクで指定された領域のイメージに新しいコンテンツを追加するタスクである。
RePaint: A Denoising Probabilistic Model (DDPM) を用いた塗装手法を提案する。
本手法は,標準的なマスクと極端マスクを用いて,顔と汎用画像の塗装の両面で検証する。
論文 参考訳(メタデータ) (2022-01-24T18:40:15Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - In&Out : Diverse Image Outpainting via GAN Inversion [89.84841983778672]
image outpaintingは、利用可能なコンテンツを超えて、入力画像の意味的に一貫した拡張を求める。
本研究では、生成的対向ネットワークの反転の観点から問題を定式化する。
私達の発電機はイメージの彼らの共同潜入コードそして個々の位置で調節されるマイクロ パッチをレンダリングします。
論文 参考訳(メタデータ) (2021-04-01T17:59:10Z) - TransFill: Reference-guided Image Inpainting by Merging Multiple Color
and Spatial Transformations [35.9576572490994]
本稿では,対象画像とシーン内容を共有する別のソース画像を参照して,穴を埋めるマルチホモグラフィ変換核融合法であるtransfillを提案する。
色を調整し、各ホモグラフィー歪んだソースイメージにピクセルレベルのワーピングを適用して、ターゲットとの整合性を高めることを学びます。
本手法は,多種多様なベースラインと色差にまたがる画像対の最先端性能を実現し,ユーザ提供画像対に一般化する。
論文 参考訳(メタデータ) (2021-03-29T22:45:07Z) - Painting Outside as Inside: Edge Guided Image Outpainting via
Bidirectional Rearrangement with Progressive Step Learning [18.38266676724225]
双方向境界領域再構成を用いた画像出力方式を提案する。
提案手法は, 定性的, 定量的に, 他の最先端の塗装工法と比較した。
実験の結果,本手法は他の手法よりも優れ,360デグパノラマ特性を持つ新しい画像を生成することがわかった。
論文 参考訳(メタデータ) (2020-10-05T06:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。