論文の概要: HawkI: Homography & Mutual Information Guidance for 3D-free Single Image to Aerial View
- arxiv url: http://arxiv.org/abs/2311.15478v3
- Date: Wed, 14 Aug 2024 22:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 19:14:56.655596
- Title: HawkI: Homography & Mutual Information Guidance for 3D-free Single Image to Aerial View
- Title(参考訳): ホログラフィーとミューチュアル・インフォメーション・ガイダンスによる3D画像から航空写真まで
- Authors: Divya Kothandaraman, Tianyi Zhou, Ming Lin, Dinesh Manocha,
- Abstract要約: 本稿では,テキストと模範画像から空中視像を合成するためのHawkeIを提案する。
HawkIは、予め訓練されたテキストから2次元の安定拡散モデルに入力画像からの視覚的特徴をブレンドする。
推測において、HawkeIは、入力画像の意味的詳細を忠実に複製するために生成されたイメージを操るために、ユニークな相互情報ガイダンスの定式化を用いる。
- 参考スコア(独自算出の注目度): 67.8213192993001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present HawkI, for synthesizing aerial-view images from text and an exemplar image, without any additional multi-view or 3D information for finetuning or at inference. HawkI uses techniques from classical computer vision and information theory. It seamlessly blends the visual features from the input image within a pretrained text-to-2Dimage stable diffusion model with a test-time optimization process for a careful bias-variance trade-off, which uses an Inverse Perspective Mapping (IPM) homography transformation to provide subtle cues for aerialview synthesis. At inference, HawkI employs a unique mutual information guidance formulation to steer the generated image towards faithfully replicating the semantic details of the input-image, while maintaining a realistic aerial perspective. Mutual information guidance maximizes the semantic consistency between the generated image and the input image, without enforcing pixel-level correspondence between vastly different viewpoints. Through extensive qualitative and quantitative comparisons against text + exemplar-image based methods and 3D/ multi-view based novel-view synthesis methods on proposed synthetic and real datasets, we demonstrate that our method achieves a significantly better bias-variance trade-off towards generating high fidelity aerial-view images.Code and data is available at https://github.com/divyakraman/HawkI2024.
- Abstract(参考訳): 我々は,テキストと模範画像から空中視像を合成するためのHawkIについて,微調整や推論のための追加のマルチビューや3D情報なしで述べる。
HawkIは古典的なコンピュータビジョンと情報理論の技法を使用している。
入力画像からの視覚的特徴を事前訓練されたテキストから2次元の安定拡散モデルにシームレスにブレンドし、入射視点マッピング(IPM)のホモグラフィ変換を用いて航空視合成のための微妙な手がかりを提供する。
推測において、HawkeIは、現実的な空中視点を維持しながら、入力画像のセマンティック詳細を忠実に複製するために、生成したイメージを操るために、ユニークな相互情報ガイダンスの定式化を用いる。
相互情報ガイダンスは生成した画像と入力画像とのセマンティック一貫性を最大化し、異なる視点間のピクセルレベルの対応を強制しない。
提案した合成および実データに対するテキスト+例画像ベース手法と3D/複数ビューベース新規ビュー合成手法との大規模な定性的・定量的比較により,本手法は高忠実度空中ビュー画像の生成に向けて,より優れたバイアス分散トレードオフを実現することを実証した。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Explicit Correspondence Matching for Generalizable Neural Radiance
Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z) - Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。
従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。
グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文 参考訳(メタデータ) (2023-03-08T14:54:51Z) - Refining 3D Human Texture Estimation from a Single Image [3.8761064607384195]
1枚の画像から3次元の人間のテクスチャを推定することは、グラフィックと視覚に不可欠である。
本稿では,オフセットが深層ニューラルネットワークを介して学習される変形可能な畳み込みによって,入力を適応的にサンプリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T19:53:50Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。