論文の概要: Bird's-Eye View to Street-View: A Survey
- arxiv url: http://arxiv.org/abs/2405.08961v1
- Date: Tue, 14 May 2024 21:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 14:55:25.149405
- Title: Bird's-Eye View to Street-View: A Survey
- Title(参考訳): 鳥の視点からストリートビューへ:調査
- Authors: Khawlah Bajbaa, Muhammad Usman, Saeed Anwar, Ibrahim Radwan, Abdul Bais,
- Abstract要約: 衛星画像からストリートビュー画像がどのように合成されるのかを概観するため、20の最近の研究論文をレビューした。
主な発見は, (i) より現実的で正確なストリートビュー画像の合成に新しいディープラーニング技術が必要であること, (ii) 公共利用のためにより多くのデータセットを収集する必要があること, (iii) 生成された画像を適切に評価するためには,より具体的な評価指標を検討する必要があること,である。
- 参考スコア(独自算出の注目度): 16.90516098120805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, street view imagery has grown to become one of the most important sources of geospatial data collection and urban analytics, which facilitates generating meaningful insights and assisting in decision-making. Synthesizing a street-view image from its corresponding satellite image is a challenging task due to the significant differences in appearance and viewpoint between the two domains. In this study, we screened 20 recent research papers to provide a thorough review of the state-of-the-art of how street-view images are synthesized from their corresponding satellite counterparts. The main findings are: (i) novel deep learning techniques are required for synthesizing more realistic and accurate street-view images; (ii) more datasets need to be collected for public usage; and (iii) more specific evaluation metrics need to be investigated for evaluating the generated images appropriately. We conclude that, due to applying outdated deep learning techniques, the recent literature failed to generate detailed and diverse street-view images.
- Abstract(参考訳): 近年、ストリートビューの画像は地理空間データ収集や都市分析の最も重要な情報源となり、意味のある洞察を生み出し、意思決定を支援する。
衛星画像からのストリートビュー画像の合成は、2つの領域間の外観と視点の相違から難しい課題である。
本研究では,20件の最近の研究論文を概説し,対応する衛星画像からストリートビュー画像がどのように合成されるのかを概観した。
主な発見は次の通りである。
(i)より現実的で正確なストリートビュー画像の合成に新しい深層学習技術が必要である。
(ii)公的利用のためにより多くのデータセットを収集する必要がある。
3) 得られた画像の適切な評価のために, より具体的な評価基準を検討する必要がある。
筆者らは,時代遅れの深層学習技術を適用したため,近年の文献では詳細かつ多様なストリートビュー画像の生成に失敗していると結論づけた。
関連論文リスト
- CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis [54.852701978617056]
CrossViewDiffは、衛星間ビュー合成のためのクロスビュー拡散モデルである。
ビュー間の大きな相違による課題に対処するため、衛星シーン構造推定とクロスプラットフォームテクスチャマッピングモジュールを設計する。
合成結果のより包括的な評価を実現するため,GPTに基づくスコアリング手法を設計する。
論文 参考訳(メタデータ) (2024-08-27T03:41:44Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - 3D Object Detection from Images for Autonomous Driving: A Survey [68.33502122185813]
画像から3Dオブジェクトを検出することは、自動運転の基本的かつ困難な問題の一つだ。
この問題を2015年から2021年にかけて200以上の研究が行われ、理論、アルゴリズム、応用の幅広い範囲で研究されている。
我々は,この新奇で継続的な研究分野を包括的に調査し,画像に基づく3D検出に最もよく使用されるパイプラインを要約する。
論文 参考訳(メタデータ) (2022-02-07T07:12:24Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Coming Down to Earth: Satellite-to-Street View Synthesis for
Geo-Localization [9.333087475006003]
クロスビュー画像に基づくジオローカライズは,この2つの領域間の視野と外観の違いから,非常に困難である。
衛星入力からリアルなストリートビューを合成することで,この不一致を明示的に解決できることを示す。
本稿では,画像合成と検索を共同で行うマルチタスクアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-11T17:40:59Z) - Geometry-Guided Street-View Panorama Synthesis from Satellite Imagery [80.6282101835164]
オーバヘッド衛星画像から新しいストリートビューパノラマを合成するための新しいアプローチを提案する。
本手法は,googleの全方位ストリートビュー型パノラマを,衛星パッチの中央と同じ地理的位置から取得したかのように生成する。
論文 参考訳(メタデータ) (2021-03-02T10:27:05Z) - Adversarial Text-to-Image Synthesis: A Review [7.593633267653624]
我々は,5年前に始まった対人テキスト・画像合成モデルの状況,その発展を文脈的に把握し,その監督レベルに基づく分類法を提案する。
我々は,より優れたデータセットや評価指標の開発から,アーキテクチャ設計やモデルトレーニングの改善の可能性に至るまで,テキスト・ツー・イメージ合成モデルの評価,欠点の強調,新たな研究領域の特定に向けた現在の戦略を批判的に検討する。
本総説は, テキストと画像の合成に焦点をあてた, 生成的敵ネットワークに関する過去の調査を補完するものである。
論文 参考訳(メタデータ) (2021-01-25T09:58:36Z) - From A Glance to "Gotcha": Interactive Facial Image Retrieval with
Progressive Relevance Feedback [72.29919762941029]
本稿では,目撃者から徐々にフィードバックを得て顔画像を取得するためのエンドツーエンドフレームワークを提案する。
追加のアノテーションを必要とせずに、私たちのモデルは少しのレスポンスの努力を犠牲にして適用できます。
論文 参考訳(メタデータ) (2020-07-30T18:46:25Z) - Deep learning for scene recognition from visual data: a survey [2.580765958706854]
この研究は、視覚データから深層学習モデルを用いて、シーン認識における最先端の技術をレビューすることを目的としている。
シーン認識は依然としてコンピュータビジョンの新たな分野であり、単一の画像と動的な画像の観点から対処されてきた。
論文 参考訳(メタデータ) (2020-07-03T16:53:18Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。