Fugu-MT 論文翻訳(概要): SkyScenes: A Synthetic Dataset for Aerial Scene Understanding

論文の概要: SkyScenes: A Synthetic Dataset for Aerial Scene Understanding

arxiv url: http://arxiv.org/abs/2312.06719v1
Date: Mon, 11 Dec 2023 02:25:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 18:32:18.997296
Title: SkyScenes: A Synthetic Dataset for Aerial Scene Understanding
Title（参考訳）: SkyScenes: 航空シーン理解のための合成データセット
Authors: Sahil Khose, Anisha Pal, Aayushi Agarwal, Deepanshi, Judy Hoffman, Prithvijit Chattopadhyay
Abstract要約: 無人航空機の視点から高密度に注釈付けされた空中画像のデータセットSkyScenesを提示する。 SkyScenesで訓練されたモデルは、様々な現実世界のシナリオによく当てはまることを示す。
参考スコア（独自算出の注目度）: 14.360969493489698
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Real-world aerial scene understanding is limited by a lack of datasets that contain densely annotated images curated under a diverse set of conditions. Due to inherent challenges in obtaining such images in controlled real-world settings, we present SkyScenes, a synthetic dataset of densely annotated aerial images captured from Unmanned Aerial Vehicle (UAV) perspectives. We carefully curate SkyScenes images from CARLA to comprehensively capture diversity across layout (urban and rural maps), weather conditions, times of day, pitch angles and altitudes with corresponding semantic, instance and depth annotations. Through our experiments using SkyScenes, we show that (1) Models trained on SkyScenes generalize well to different real-world scenarios, (2) augmenting training on real images with SkyScenes data can improve real-world performance, (3) controlled variations in SkyScenes can offer insights into how models respond to changes in viewpoint conditions, and (4) incorporating additional sensor modalities (depth) can improve aerial scene understanding.
Abstract（参考訳）: 実世界の航空シーンの理解は、様々な条件の下でキュレーションされた濃密な注釈付き画像を含むデータセットの不足によって制限される。そこで,本研究では,無人航空機(uav)の視点から撮影した高濃度アノテートされた空中画像の合成データセットであるskyscenesを提案する。我々は、CARLAのSkyScenes画像を慎重にキュレートし、レイアウト(アーバンマップと農村マップ)、気象条件、日時、ピッチ角、高度を、対応する意味、例、深さアノテーションで包括的に把握する。 1)SkyScenesを用いた実験により,(1)SkyScenesで訓練されたモデルが現実のシナリオに順応し,(2)SkyScenesデータによる実画像のトレーニングが実世界のパフォーマンスを向上させること,(3)SkyScenesの制御されたバリエーションが,視点条件の変化にモデルがどのように反応するか,(4)追加のセンサモード(深度)を組み込むことで空間の理解が向上すること,などが示されている。

関連論文リスト

Top2Ground: A Height-Aware Dual Conditioning Diffusion Model for Robust Aerial-to-Ground View Generation [14.377332218510743]
Top2Groundは、空中入力画像から地上画像を直接生成する新しい拡散法である。本研究では,VAE符号化空間特徴の共役表現にデノナイジング過程を規定する。 Top2Groundは、広視野と狭視野の両方を強力に扱うことができ、その強力な一般化能力を強調している。
論文参考訳（メタデータ） (2025-11-11T13:53:07Z)
AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis [57.249817395828174]
本研究では,3次元都市規模のメッシュからの擬似合成レンダリングと,実地レベルでのクラウドソース画像を組み合わせたスケーラブルなフレームワークを提案する。擬似合成データは、幅広い空中視点をシミュレートする一方、実際のクラウドソース画像は、地上レベルの画像の視覚的忠実度を改善するのに役立つ。このハイブリッドデータセットを使用して、いくつかの最先端のアルゴリズムを微調整し、実世界のゼロショット地上作業において大幅な改善を実現する。
論文参考訳（メタデータ） (2025-04-17T17:57:05Z)
Horizon-GS: Unified 3D Gaussian Splatting for Large-Scale Aerial-to-Ground Scenes [55.15494682493422]
本稿では,ガウシアン・スプレイティング技術に基づく新しい手法であるHorizon-GSを導入し,航空やストリートビューの統一的な再構築とレンダリングに挑戦する。提案手法は,これらの視点と新たなトレーニング戦略を組み合わせることによる重要な課題に対処し,視点の相違を克服し,高忠実度シーンを生成する。
論文参考訳（メタデータ） (2024-12-02T17:42:00Z)
SkyAI Sim: An Open-Source Simulation of UAV Aerial Imaging from Satellite Data [0.8749675983608172]
視覚ベースのナビゲーション(VBN)のための現実の空中画像の取得は、可用性と条件が限られているため困難である。 SkyAI Simは、UAVをシミュレートして、現実の可視光帯域仕様で、鳥眼の衛星画像をゼロヨーでキャプチャする、魅力的な代替手段を提供する。
論文参考訳（メタデータ） (2024-10-02T20:08:29Z)
Skyeyes: Ground Roaming using Aerial View Images [9.159470619808127]
地上画像のシーケンスを生成するための新しいフレームワークであるSkyeyesを紹介した。より具体的には、3D表現とビュー一貫した生成モデルを組み合わせることで、生成された画像間のコヒーレンスを保証する。画像は、空間的時間的コヒーレンスとリアリズムを改善し、空間的視点からシーンの理解と可視化を強化する。
論文参考訳（メタデータ） (2024-09-25T07:21:43Z)
Leveraging BEV Paradigm for Ground-to-Aerial Image Synthesis [14.492759165786364]
地上から地上への画像合成は、対応する地上の景観画像から現実的な空中画像を生成することに焦点を当てている。本研究では,ストリートビュー画像から航空画像を合成する新しいクロスビュー生成手法であるSkyDiffusionを紹介する。地上から地上までの多様な画像合成用途のために設計された新しいデータセット「Ground2Aerial-3」を紹介した。
論文参考訳（メタデータ） (2024-08-03T15:43:56Z)
WayveScenes101: A Dataset and Benchmark for Novel View Synthesis in Autonomous Driving [4.911903454560829]
WayveScenes101は、新しいビュー合成において、コミュニティが技術の状態を前進させるのを助けるために設計されたデータセットである。データセットは、幅広い環境条件と運転シナリオにわたる101の運転シーンで構成されている。
論文参考訳（メタデータ） (2024-07-11T08:29:45Z)
Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。 2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文参考訳（メタデータ） (2024-01-19T16:15:37Z)
Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。 MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文参考訳（メタデータ） (2023-12-07T18:59:14Z)
HawkI: Homography & Mutual Information Guidance for 3D-free Single Image to Aerial View [67.8213192993001]
本稿では,テキストと模範画像から空中視像を合成するためのHawkeIを提案する。 HawkIは、予め訓練されたテキストから2次元の安定拡散モデルに入力画像からの視覚的特徴をブレンドする。推測において、HawkeIは、入力画像の意味的詳細を忠実に複製するために生成されたイメージを操るために、ユニークな相互情報ガイダンスの定式化を用いる。
論文参考訳（メタデータ） (2023-11-27T01:41:25Z)
CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文参考訳（メタデータ） (2023-05-25T17:39:13Z)
Danish Airs and Grounds: A Dataset for Aerial-to-Street-Level Place Recognition and Localization [9.834635805575584]
我々は,この事例を対象とする道路や航空画像の大規模な収集であるemphDanish Airs and Groundsデータセットにコントリビュートする。データセットは、都市部、郊外部、農村部で50km以上の道路を含む、現在利用可能なデータよりも大きく、多様である。そこで本研究では,まず空中画像から高密度な3次元再構成を推定し,検索したストリートレベルの画像と3次元モデルのストリートレベルのレンダリングをマッチングするマップ・ツー・イメージ再配置パイプラインを提案する。
論文参考訳（メタデータ） (2022-02-03T19:58:09Z)
Urban Radiance Fields [77.43604458481637]
本研究では,都市屋外環境における世界地図作成によく利用されるスキャニングプラットフォームによって収集されたデータから3次元再構成と新しいビュー合成を行う。提案手法は、制御された環境下での小さなシーンのための現実的な新しい画像の合成を実証したニューラルラジアンス場を拡張している。これら3つのエクステンションはそれぞれ、ストリートビューデータの実験において、大幅なパフォーマンス改善を提供する。
論文参考訳（メタデータ） (2021-11-29T15:58:16Z)
Neural Sparse Voxel Fields [151.20366604586403]
高速かつ高品質な自由視点レンダリングのためのニューラルシーン表現であるNeural Sparse Voxel Fields (NSVF)を紹介する。 NSVFは、各細胞の局所特性をモデル化するために、スパース・ボクセル・オクツリーで組織された、ボクセルに結合した暗黙のフィールドのセットを定義する。提案手法は, 高い品質を達成しつつ, 推論時の最先端技術(NeRF(Mildenhall et al., 2020))よりも10倍以上高速である。
論文参考訳（メタデータ） (2020-07-22T17:51:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。