論文の概要: CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale
Point Cloud Data
- arxiv url: http://arxiv.org/abs/2310.18773v1
- Date: Sat, 28 Oct 2023 18:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:45:23.119005
- Title: CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale
Point Cloud Data
- Title(参考訳): cityrefer:都市規模ポイントクラウドデータに基づく地理対応3dビジュアルグラウンドデータセット
- Authors: Taiki Miyanishi, Fumiya Kitamori, Shuhei Kurita, Jungdae Lee, Motoaki
Kawanabe, Nakamasa Inoue
- Abstract要約: 都市レベルの視覚的接地のためのCityReferデータセットについて紹介する。
データセットは、SensatUrbanの都市シーンに現れる3Dオブジェクトの35kの自然言語記述と、OpenStreetMapと同期する5kのランドマークラベルで構成されている。
- 参考スコア(独自算出の注目度): 15.526523262690965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: City-scale 3D point cloud is a promising way to express detailed and
complicated outdoor structures. It encompasses both the appearance and geometry
features of segmented city components, including cars, streets, and buildings,
that can be utilized for attractive applications such as user-interactive
navigation of autonomous vehicles and drones. However, compared to the
extensive text annotations available for images and indoor scenes, the scarcity
of text annotations for outdoor scenes poses a significant challenge for
achieving these applications. To tackle this problem, we introduce the
CityRefer dataset for city-level visual grounding. The dataset consists of 35k
natural language descriptions of 3D objects appearing in SensatUrban city
scenes and 5k landmarks labels synchronizing with OpenStreetMap. To ensure the
quality and accuracy of the dataset, all descriptions and labels in the
CityRefer dataset are manually verified. We also have developed a baseline
system that can learn encoded language descriptions, 3D object instances, and
geographical information about the city's landmarks to perform visual grounding
on the CityRefer dataset. To the best of our knowledge, the CityRefer dataset
is the largest city-level visual grounding dataset for localizing specific 3D
objects.
- Abstract(参考訳): 都市規模の3dポイントクラウドは、詳細かつ複雑な屋外構造を表現する有望な方法である。
これは、自動車、道路、建物を含む分断された都市の構成要素の外観と幾何学的特徴を包含しており、自動運転車やドローンのユーザ対話ナビゲーションのような魅力的な用途に利用できる。
しかし、画像や屋内シーンで利用できる広範なテキストアノテーションに比べ、屋外シーンでのテキストアノテーションの不足は、これらのアプリケーションを実現する上で大きな課題となっている。
この問題に対処するために,都市レベルの視覚的接地のためのCityReferデータセットを提案する。
データセットは、SensatUrbanの都市シーンに現れる3Dオブジェクトの35kの自然言語記述と、OpenStreetMapと同期する5kのランドマークラベルで構成されている。
データセットの品質と正確性を保証するため、CityReferデータセットのすべての記述とラベルが手作業で検証される。
また,CityReferデータセットに基づく視覚的グラウンド化を行うために,符号化言語記述や3Dオブジェクトインスタンス,都市のランドマークに関する地理情報を学習できるベースラインシステムを開発した。
私たちの知る限りでは、cityreferデータセットは、特定の3dオブジェクトをローカライズするための、最大の都市レベルのビジュアルグラウンドデータセットです。
関連論文リスト
- Space3D-Bench: Spatial 3D Question Answering Benchmark [49.259397521459114]
Space3D-Benchは、Replicaデータセットのシーンに関連する1000の一般的な空間的質問と回答の集合である。
本研究では,事前定義された接地真実解に基づいて,自然言語応答を評価評価するシステムを提案する。
最後に,基礎モデルの世界理解をリッチな文脈検索と統合したRAG3D-Chatというベースラインを導入する。
論文 参考訳(メタデータ) (2024-08-29T16:05:22Z) - 3D Question Answering for City Scene Understanding [12.433903847890322]
3Dマルチモーダル質問応答(MQA)は,知的エージェントが周囲を3D環境下で理解できるようにすることによって,シーン理解において重要な役割を担っている。
都市レベルのシーン理解のための3D MQAデータセットCity-3DQAを提案する。
新しいベンチマークを報告し,提案したSg-CityUはCity-3DQAの異なる設定で63.94 %と63.76 %の精度を達成する。
論文 参考訳(メタデータ) (2024-07-24T16:22:27Z) - Urban Scene Diffusion through Semantic Occupancy Map [49.20779809250597]
UrbanDiffusionは、Bird's-Eye View (BEV)マップに条件付き3次元拡散モデルである。
我々のモデルは,潜在空間内のシーンレベルの構造の分布を学習する。
実世界の運転データセットをトレーニングした後、我々のモデルは多様な都市シーンを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T11:54:35Z) - MatrixCity: A Large-scale City Dataset for City-scale Neural Rendering
and Beyond [69.37319723095746]
都市規模のニューラルレンダリング研究のための大規模で包括的で高品質な合成データセットを構築します。
本研究では,地上カメラのポーズと追加データモダリティを伴って,航空・街路ビューを容易に収集するパイプラインを構築した。
その結果得られたパイロットデータセットMatrixCityには、合計28km2$の2つの都市地図から、67kの空中画像と452kのストリート画像が含まれている。
論文 参考訳(メタデータ) (2023-09-28T16:06:02Z) - CityDreamer: Compositional Generative Model of Unbounded 3D Cities [44.203932215464214]
CityDreamerは、非有界な3D都市向けに特別に設計された合成モデルである。
我々は、鳥の視線シーン表現を採用し、インスタンス指向と物指向のニューラルフィールドの両方にボリュームレンダリングを採用する。
CityDreamerは、現実的な3D都市を生成するだけでなく、生成された都市内の局所的な編集でも、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-01T17:57:02Z) - SensatUrban: Learning Semantics from Urban-Scale Photogrammetric Point
Clouds [52.624157840253204]
センサットウルバン(SensatUrban)は、イギリスの3都市から収集された7.6km2の30億点近くからなる、都市規模のUAV測光点クラウドデータセットである。
データセットの各ポイントは、粒度の細かいセマンティックアノテーションでラベル付けされ、その結果、既存の最大のフォトグラムポイントクラウドデータセットの3倍の大きさのデータセットが生成される。
論文 参考訳(メタデータ) (2022-01-12T14:48:11Z) - Semantic Segmentation on Swiss3DCities: A Benchmark Study on Aerial
Photogrammetric 3D Pointcloud Dataset [67.44497676652173]
スイスの3つの都市から採取された総面積2.7 km2$の屋外3Dポイントクラウドデータセットを紹介した。
データセットは、ポイントごとのラベルによるセマンティックセグメンテーションのために手動でアノテートされ、高解像度カメラを備えたマルチローターによって取得された画像のフォトグラムを用いて構築される。
論文 参考訳(メタデータ) (2020-12-23T21:48:47Z) - Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset,
Benchmarks and Challenges [52.624157840253204]
我々は、30億点近い注釈付きポイントを持つ都市規模の測光点クラウドデータセットを提示する。
私たちのデータセットは、イギリスの3つの都市からなり、都市の景観の約7.6km2をカバーしています。
我々は,データセット上での最先端アルゴリズムの性能を評価し,その結果を包括的に分析する。
論文 参考訳(メタデータ) (2020-09-07T14:47:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。