論文の概要: Aerial Diffusion: Text Guided Ground-to-Aerial View Translation from a
Single Image using Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.11444v2
- Date: Fri, 8 Sep 2023 00:36:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 18:14:48.218625
- Title: Aerial Diffusion: Text Guided Ground-to-Aerial View Translation from a
Single Image using Diffusion Models
- Title(参考訳): 空中拡散:拡散モデルを用いた単一画像からの地対空ビューのテキスト変換
- Authors: Divya Kothandaraman, Tianyi Zhou, Ming Lin, Dinesh Manocha
- Abstract要約: そこで本研究では,テキストガイダンスを用いて1つの地上画像から空中映像を生成する新しい手法であるAerial Diffusionを提案する。
地上ビューと空中ビューのドメインギャップに対応する2つの主な課題に対処する。
航空拡散(Aerial Diffusion)は、地上から航空への翻訳を教師なしで行う最初のアプローチである。
- 参考スコア(独自算出の注目度): 72.76182801289497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel method, Aerial Diffusion, for generating aerial views from
a single ground-view image using text guidance. Aerial Diffusion leverages a
pretrained text-image diffusion model for prior knowledge. We address two main
challenges corresponding to domain gap between the ground-view and the aerial
view and the two views being far apart in the text-image embedding manifold.
Our approach uses a homography inspired by inverse perspective mapping prior to
finetuning the pretrained diffusion model. Additionally, using the text
corresponding to the ground-view to finetune the model helps us capture the
details in the ground-view image at a relatively low bias towards the
ground-view image. Aerial Diffusion uses an alternating sampling strategy to
compute the optimal solution on complex high-dimensional manifold and generate
a high-fidelity (w.r.t. ground view) aerial image. We demonstrate the quality
and versatility of Aerial Diffusion on a plethora of images from various
domains including nature, human actions, indoor scenes, etc. We qualitatively
prove the effectiveness of our method with extensive ablations and comparisons.
To the best of our knowledge, Aerial Diffusion is the first approach that
performs ground-to-aerial translation in an unsupervised manner.
- Abstract(参考訳): 本稿では,テキストガイドを用いた地上画像から空中映像を生成する新しい手法である空中拡散法を提案する。
航空拡散は事前知識のための事前訓練されたテキストイメージ拡散モデルを利用する。
地平線と空中線との領域ギャップに対応する2つの主要な課題に対処し,テキスト画像埋め込み多様体において,その2つの視点は遠く離れている。
提案手法は,事前学習した拡散モデルの微調整に先立って,逆パースペクティブマッピングにインスパイアされたホモグラフィを用いている。
さらに、地上画像に対応するテキストを使用してモデルを微調整することは、地上画像に対して相対的に低いバイアスで地上画像の詳細をキャプチャするのに役立つ。
空中拡散は交代サンプリング戦略を用いて複雑な高次元多様体上の最適解を計算し、高忠実度(w.r.t. ground view)空中画像を生成する。
本研究では,自然,人的行動,屋内シーンなど,さまざまな領域の画像に対して,空中拡散の質と汎用性を示す。
提案手法の有効性を,広範囲な改善と比較により定性的に証明する。
私たちの知る限りでは、航空拡散は教師なしの方法で地対空翻訳を行う最初のアプローチです。
関連論文リスト
- Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - HawkI: Homography & Mutual Information Guidance for 3D-free Single Image to Aerial View [67.8213192993001]
本稿では,テキストと模範画像から空中視像を合成するためのHawkeIを提案する。
HawkIは、予め訓練されたテキストから2次元の安定拡散モデルに入力画像からの視覚的特徴をブレンドする。
推測において、HawkeIは、入力画像の意味的詳細を忠実に複製するために生成されたイメージを操るために、ユニークな相互情報ガイダンスの定式化を用いる。
論文 参考訳(メタデータ) (2023-11-27T01:41:25Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - ADIR: Adaptive Diffusion for Image Reconstruction [46.838084286784195]
本研究では,拡散モデルによる事前学習を利用した条件付きサンプリング手法を提案する。
次に、事前学習した拡散分極ネットワークを入力に適応させる新しいアプローチと組み合わせる。
画像再構成手法の適応拡散は,超高解像度,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善が達成されていることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:39:58Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Non-Homogeneous Haze Removal via Artificial Scene Prior and
Bidimensional Graph Reasoning [52.07698484363237]
本研究では,人工シーンの前置と2次元グラフ推論による不均質なヘイズ除去ネットワーク(nhrn)を提案する。
本手法は,単一画像デハジングタスクとハイザイ画像理解タスクの両方において,最先端アルゴリズムよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-04-05T13:04:44Z) - Leveraging Photogrammetric Mesh Models for Aerial-Ground Feature Point
Matching Toward Integrated 3D Reconstruction [19.551088857830944]
地上・地上画像の統合は, 都市環境における表面の再構築を効果的に進めるためのアプローチとして証明されている。
幾何認識による画像補正に基づく従来の研究により,この問題は緩和された。
地上画像マッチングにフォトグラムメッシュモデルを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T01:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。