論文の概要: Autoregressive Omni-Aware Outpainting for Open-Vocabulary 360-Degree Image Generation
- arxiv url: http://arxiv.org/abs/2309.03467v2
- Date: Mon, 8 Apr 2024 07:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 04:47:47.135267
- Title: Autoregressive Omni-Aware Outpainting for Open-Vocabulary 360-Degree Image Generation
- Title(参考訳): オープンVocabulary 360-Degree画像生成のための自己回帰型Omni-Awareアウトペイント
- Authors: Zhuqiang Lu, Kun Hu, Chaoyue Wang, Lei Bai, Zhiyong Wang,
- Abstract要約: AOG-Netは、NFoVとテキストガイダンスを併用または個別に、不完全な画像を段階的に描画することで、360度画像生成のために提案される。
各自己回帰ステップにおいて、アウトペイントガイダンスを定式化するために、グローバルローカルコンディショニング機構が考案された。
室内と屋外の両方でよく使用される2つの360度画像データセットに関する総合実験により,提案手法の最先端性能が実証された。
- 参考スコア(独自算出の注目度): 36.45222068699805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A 360-degree (omni-directional) image provides an all-encompassing spherical view of a scene. Recently, there has been an increasing interest in synthesising 360-degree images from conventional narrow field of view (NFoV) images captured by digital cameras and smartphones, for providing immersive experiences in various scenarios such as virtual reality. Yet, existing methods typically fall short in synthesizing intricate visual details or ensure the generated images align consistently with user-provided prompts. In this study, autoregressive omni-aware generative network (AOG-Net) is proposed for 360-degree image generation by out-painting an incomplete 360-degree image progressively with NFoV and text guidances joinly or individually. This autoregressive scheme not only allows for deriving finer-grained and text-consistent patterns by dynamically generating and adjusting the process but also offers users greater flexibility to edit their conditions throughout the generation process. A global-local conditioning mechanism is devised to comprehensively formulate the outpainting guidance in each autoregressive step. Text guidances, omni-visual cues, NFoV inputs and omni-geometry are encoded and further formulated with cross-attention based transformers into a global stream and a local stream into a conditioned generative backbone model. As AOG-Net is compatible to leverage large-scale models for the conditional encoder and the generative prior, it enables the generation to use extensive open-vocabulary text guidances. Comprehensive experiments on two commonly used 360-degree image datasets for both indoor and outdoor settings demonstrate the state-of-the-art performance of our proposed method. Our code will be made publicly available.
- Abstract(参考訳): 360度(全方向)の画像は、シーンの全球ビューを提供する。
近年,デジタルカメラやスマートフォンが捉えた従来の狭視野画像(NFoV)から360度画像を合成することで,仮想現実などの様々なシナリオにおいて没入感のある体験を提供することへの関心が高まっている。
しかし、既存の手法は通常、複雑な視覚的詳細を合成したり、生成された画像がユーザーが提供するプロンプトと整合していることを保証するのに不足する。
本研究では,NFoVとテキストガイダンスを併用または個別に,不完全な360度画像を段階的に描画することで,自動回帰型Omni-Aware Generative Network(AOG-Net)を提案する。
この自己回帰方式は、プロセスを動的に生成・調整することで、より細粒度でテキスト一貫性のあるパターンを導出できるだけでなく、生成プロセス全体を通して、よりフレキシブルな条件編集を可能にする。
各自己回帰ステップにおいて、アウトペイントガイダンスを包括的に定式化するために、グローバルローカルコンディショニング機構が考案された。
テキストガイダンス、オムニ視覚的手がかり、NFoV入力およびオムニ幾何学を符号化し、クロスアテンションベースのトランスフォーマーを大域ストリームに、局所ストリームを条件付き生成バックボーンモデルに、さらに定式化する。
AOG-Netは、条件付きエンコーダと生成前の大規模なモデルを利用するために互換性があるため、生成元は広範なオープン語彙のテキストガイダンスを使用することができる。
室内と屋外の両方でよく使用される2つの360度画像データセットに関する総合実験により,提案手法の最先端性能が実証された。
私たちのコードは公開されます。
関連論文リスト
- OPa-Ma: Text Guided Mamba for 360-degree Image Out-painting [9.870063736691556]
我々は,従来の狭視野画像(NFoV)から360度画像を生成するという,最近の話題に対処する。
この課題は、NFoV画像から合理的で一貫した環境を予測することを目的としている。
そこで本稿では,Mambaと呼ばれる状態空間モデルを備えた新しいテキスト誘導アウトペイントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:23:00Z) - Taming Stable Diffusion for Text to 360° Panorama Image Generation [74.69314801406763]
そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。
本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:46:14Z) - Dream360: Diverse and Immersive Outdoor Virtual Scene Creation via
Transformer-Based 360 Image Outpainting [33.95741744421632]
本研究では,Dream360と呼ばれる変換器を用いた360度画像出力フレームワークを提案する。
ユーザが選択したビューポートから多種多様で高忠実で高解像度のパノラマを生成することができる。
私たちのDream360は、既存の方法よりもFrechet Inception Distance(FID)スコアが大幅に低く、視覚的忠実度が向上します。
論文 参考訳(メタデータ) (2024-01-19T09:01:20Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - HawkI: Homography & Mutual Information Guidance for 3D-free Single Image to Aerial View [67.8213192993001]
本稿では,テキストと模範画像から空中視像を合成するためのHawkeIを提案する。
HawkIは、予め訓練されたテキストから2次元の安定拡散モデルに入力画像からの視覚的特徴をブレンドする。
推測において、HawkeIは、入力画像の意味的詳細を忠実に複製するために生成されたイメージを操るために、ユニークな相互情報ガイダンスの定式化を用いる。
論文 参考訳(メタデータ) (2023-11-27T01:41:25Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Capturing Omni-Range Context for Omnidirectional Segmentation [29.738065412097598]
本稿では,fovと画像領域間の構造分布のギャップを埋めるために,並列注意ネットワーク(ecanets)を導入する。
ラベル付きデータとラベルなしデータの両方を利用して、マルチソースとオムニバイザード学習を活用してモデルトレーニングをアップグレードします。
我々の新しいモデル、トレーニング規則およびマルチソース予測融合は、新しい最先端結果に性能(mIoU)を上昇させる。
論文 参考訳(メタデータ) (2021-03-09T19:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。