論文の概要: AerialBooth: Mutual Information Guidance for Text Controlled Aerial View
Synthesis from a Single Image
- arxiv url: http://arxiv.org/abs/2311.15478v1
- Date: Mon, 27 Nov 2023 01:41:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:31:32.762937
- Title: AerialBooth: Mutual Information Guidance for Text Controlled Aerial View
Synthesis from a Single Image
- Title(参考訳): AerialBooth:単一画像からのテキスト制御空中ビュー合成のための相互情報誘導
- Authors: Divya Kothandaraman, Tianyi Zhou, Ming Lin, Dinesh Manocha
- Abstract要約: 本稿では,AerialBoothというテキスト記述を用いて,単一の入力画像から空中ビューを合成する新しい手法を提案する。
我々は、事前訓練されたテキストから2次元画像への安定拡散モデルを、3次元世界の事前知識として活用する。
AerialBoothは、視点と忠実度を分析する7つの指標で定量的に評価されているものの、最高の視点と忠実性のトレードオフを達成する。
- 参考スコア(独自算出の注目度): 72.76182801289497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel method, AerialBooth, for synthesizing the aerial view from
a single input image using its text description. We leverage the pretrained
text-to-2D image stable diffusion model as prior knowledge of the 3D world. The
model is finetuned in two steps to optimize for the text embedding and the UNet
that reconstruct the input image and its inverse perspective mapping
respectively. The inverse perspective mapping creates variance within the
text-image space of the diffusion model, while providing weak guidance for
aerial view synthesis. At inference, we steer the contents of the generated
image towards the input image using novel mutual information guidance that
maximizes the information content between the probability distributions of the
two images. We evaluate our approach on a wide spectrum of real and synthetic
data, including natural scenes, indoor scenes, human action, etc. Through
extensive experiments and ablation studies, we demonstrate the effectiveness of
AerialBooth and also its generalizability to other text-controlled views. We
also show that AerialBooth achieves the best viewpoint-fidelity trade-off
though quantitative evaluation on 7 metrics analyzing viewpoint and fidelity
w.r.t. input image. Code and data is available at
https://github.com/divyakraman/AerialBooth2023.
- Abstract(参考訳): 本稿では,AerialBoothというテキスト記述を用いた単一入力画像から空中ビューを合成する新しい手法を提案する。
3次元世界の事前知識として,事前学習したテキスト対2次元画像安定拡散モデルを利用する。
入力画像と逆視点マッピングをそれぞれ再構成するUNetとテキスト埋め込みを最適化する2つのステップでモデルを微調整する。
逆パースペクティブマッピングは拡散モデルのテキスト-画像空間内のばらつきを生じさせ、空中ビュー合成のための弱いガイダンスを提供する。
推測の際には、2つの画像の確率分布間の情報内容を最大化する新しい相互情報ガイダンスを用いて、生成された画像の内容を入力画像に向けて操る。
自然シーン,室内シーン,ヒューマンアクションなど,多岐にわたる実データおよび合成データに対して,我々のアプローチを評価した。
広範な実験とアブレーション研究を通じて,airborneboothの有効性と,他のテキスト制御ビューへの一般化を実証した。
また,AerialBoothは視点と忠実度を定量的に評価しながら,視点と忠実度を定量的に評価する。
コードとデータはhttps://github.com/divyakraman/aerialbooth2023で入手できる。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Explicit Correspondence Matching for Generalizable Neural Radiance
Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z) - Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。
従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。
グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文 参考訳(メタデータ) (2023-03-08T14:54:51Z) - Refining 3D Human Texture Estimation from a Single Image [3.8761064607384195]
1枚の画像から3次元の人間のテクスチャを推定することは、グラフィックと視覚に不可欠である。
本稿では,オフセットが深層ニューラルネットワークを介して学習される変形可能な畳み込みによって,入力を適応的にサンプリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T19:53:50Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。