論文の概要: CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale
Point Cloud Data
- arxiv url: http://arxiv.org/abs/2310.18773v1
- Date: Sat, 28 Oct 2023 18:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:45:23.119005
- Title: CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale
Point Cloud Data
- Title(参考訳): cityrefer:都市規模ポイントクラウドデータに基づく地理対応3dビジュアルグラウンドデータセット
- Authors: Taiki Miyanishi, Fumiya Kitamori, Shuhei Kurita, Jungdae Lee, Motoaki
Kawanabe, Nakamasa Inoue
- Abstract要約: 都市レベルの視覚的接地のためのCityReferデータセットについて紹介する。
データセットは、SensatUrbanの都市シーンに現れる3Dオブジェクトの35kの自然言語記述と、OpenStreetMapと同期する5kのランドマークラベルで構成されている。
- 参考スコア(独自算出の注目度): 15.526523262690965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: City-scale 3D point cloud is a promising way to express detailed and
complicated outdoor structures. It encompasses both the appearance and geometry
features of segmented city components, including cars, streets, and buildings,
that can be utilized for attractive applications such as user-interactive
navigation of autonomous vehicles and drones. However, compared to the
extensive text annotations available for images and indoor scenes, the scarcity
of text annotations for outdoor scenes poses a significant challenge for
achieving these applications. To tackle this problem, we introduce the
CityRefer dataset for city-level visual grounding. The dataset consists of 35k
natural language descriptions of 3D objects appearing in SensatUrban city
scenes and 5k landmarks labels synchronizing with OpenStreetMap. To ensure the
quality and accuracy of the dataset, all descriptions and labels in the
CityRefer dataset are manually verified. We also have developed a baseline
system that can learn encoded language descriptions, 3D object instances, and
geographical information about the city's landmarks to perform visual grounding
on the CityRefer dataset. To the best of our knowledge, the CityRefer dataset
is the largest city-level visual grounding dataset for localizing specific 3D
objects.
- Abstract(参考訳): 都市規模の3dポイントクラウドは、詳細かつ複雑な屋外構造を表現する有望な方法である。
これは、自動車、道路、建物を含む分断された都市の構成要素の外観と幾何学的特徴を包含しており、自動運転車やドローンのユーザ対話ナビゲーションのような魅力的な用途に利用できる。
しかし、画像や屋内シーンで利用できる広範なテキストアノテーションに比べ、屋外シーンでのテキストアノテーションの不足は、これらのアプリケーションを実現する上で大きな課題となっている。
この問題に対処するために,都市レベルの視覚的接地のためのCityReferデータセットを提案する。
データセットは、SensatUrbanの都市シーンに現れる3Dオブジェクトの35kの自然言語記述と、OpenStreetMapと同期する5kのランドマークラベルで構成されている。
データセットの品質と正確性を保証するため、CityReferデータセットのすべての記述とラベルが手作業で検証される。
また,CityReferデータセットに基づく視覚的グラウンド化を行うために,符号化言語記述や3Dオブジェクトインスタンス,都市のランドマークに関する地理情報を学習できるベースラインシステムを開発した。
私たちの知る限りでは、cityreferデータセットは、特定の3dオブジェクトをローカライズするための、最大の都市レベルのビジュアルグラウンドデータセットです。
関連論文リスト
- MatrixCity: A Large-scale City Dataset for City-scale Neural Rendering
and Beyond [69.37319723095746]
都市規模のニューラルレンダリング研究のための大規模で包括的で高品質な合成データセットを構築します。
本研究では,地上カメラのポーズと追加データモダリティを伴って,航空・街路ビューを容易に収集するパイプラインを構築した。
その結果得られたパイロットデータセットMatrixCityには、合計28km2$の2つの都市地図から、67kの空中画像と452kのストリート画像が含まれている。
論文 参考訳(メタデータ) (2023-09-28T16:06:02Z) - Building3D: An Urban-Scale Dataset and Benchmarks for Learning Roof
Structures from Point Clouds [4.38301148531795]
既存の3Dモデリング用のデータセットは主に家具や車などの一般的なオブジェクトに焦点を当てている。
エストニアの16都市約998Km2をカバーする,160万以上の建物と対応する点雲,メッシュ,ワイヤフレームモデルからなる都市規模データセットを提案する。
実験結果から,ビルディング3Dには高いクラス内分散,データ不均衡,大規模ノイズといった課題があることが示唆された。
論文 参考訳(メタデータ) (2023-07-21T21:38:57Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Argoverse 2: Next Generation Datasets for Self-Driving Perception and
Forecasting [64.7364925689825]
Argoverse 2(AV2)は、自動運転分野の研究の知覚と予測のための3つのデータセットの集合である。
Lidarデータセットには、ラベルなしのLidar点雲とマップ整列ポーズの2万のシーケンスが含まれている。
Motion Forecastingデータセットには、各ローカルシーンにおける自動運転車と他のアクター間の興味深い、挑戦的なインタラクションのために採掘された25万のシナリオが含まれている。
論文 参考訳(メタデータ) (2023-01-02T00:36:22Z) - Danish Airs and Grounds: A Dataset for Aerial-to-Street-Level Place
Recognition and Localization [9.834635805575584]
我々は,この事例を対象とする道路や航空画像の大規模な収集であるemphDanish Airs and Groundsデータセットにコントリビュートする。
データセットは、都市部、郊外部、農村部で50km以上の道路を含む、現在利用可能なデータよりも大きく、多様である。
そこで本研究では,まず空中画像から高密度な3次元再構成を推定し,検索したストリートレベルの画像と3次元モデルのストリートレベルのレンダリングをマッチングするマップ・ツー・イメージ再配置パイプラインを提案する。
論文 参考訳(メタデータ) (2022-02-03T19:58:09Z) - SensatUrban: Learning Semantics from Urban-Scale Photogrammetric Point
Clouds [52.624157840253204]
センサットウルバン(SensatUrban)は、イギリスの3都市から収集された7.6km2の30億点近くからなる、都市規模のUAV測光点クラウドデータセットである。
データセットの各ポイントは、粒度の細かいセマンティックアノテーションでラベル付けされ、その結果、既存の最大のフォトグラムポイントクラウドデータセットの3倍の大きさのデータセットが生成される。
論文 参考訳(メタデータ) (2022-01-12T14:48:11Z) - Semantic Segmentation on Swiss3DCities: A Benchmark Study on Aerial
Photogrammetric 3D Pointcloud Dataset [67.44497676652173]
スイスの3つの都市から採取された総面積2.7 km2$の屋外3Dポイントクラウドデータセットを紹介した。
データセットは、ポイントごとのラベルによるセマンティックセグメンテーションのために手動でアノテートされ、高解像度カメラを備えたマルチローターによって取得された画像のフォトグラムを用いて構築される。
論文 参考訳(メタデータ) (2020-12-23T21:48:47Z) - Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset,
Benchmarks and Challenges [52.624157840253204]
我々は、30億点近い注釈付きポイントを持つ都市規模の測光点クラウドデータセットを提示する。
私たちのデータセットは、イギリスの3つの都市からなり、都市の景観の約7.6km2をカバーしています。
我々は,データセット上での最先端アルゴリズムの性能を評価し,その結果を包括的に分析する。
論文 参考訳(メタデータ) (2020-09-07T14:47:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。