Fugu-MT 論文翻訳(概要): CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data

論文の概要: CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data

arxiv url: http://arxiv.org/abs/2310.18773v1
Date: Sat, 28 Oct 2023 18:05:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 16:45:23.119005
Title: CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data
Title（参考訳）: cityrefer:都市規模ポイントクラウドデータに基づく地理対応3dビジュアルグラウンドデータセット
Authors: Taiki Miyanishi, Fumiya Kitamori, Shuhei Kurita, Jungdae Lee, Motoaki Kawanabe, Nakamasa Inoue
Abstract要約: 都市レベルの視覚的接地のためのCityReferデータセットについて紹介する。データセットは、SensatUrbanの都市シーンに現れる3Dオブジェクトの35kの自然言語記述と、OpenStreetMapと同期する5kのランドマークラベルで構成されている。
参考スコア（独自算出の注目度）: 15.526523262690965
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: City-scale 3D point cloud is a promising way to express detailed and complicated outdoor structures. It encompasses both the appearance and geometry features of segmented city components, including cars, streets, and buildings, that can be utilized for attractive applications such as user-interactive navigation of autonomous vehicles and drones. However, compared to the extensive text annotations available for images and indoor scenes, the scarcity of text annotations for outdoor scenes poses a significant challenge for achieving these applications. To tackle this problem, we introduce the CityRefer dataset for city-level visual grounding. The dataset consists of 35k natural language descriptions of 3D objects appearing in SensatUrban city scenes and 5k landmarks labels synchronizing with OpenStreetMap. To ensure the quality and accuracy of the dataset, all descriptions and labels in the CityRefer dataset are manually verified. We also have developed a baseline system that can learn encoded language descriptions, 3D object instances, and geographical information about the city's landmarks to perform visual grounding on the CityRefer dataset. To the best of our knowledge, the CityRefer dataset is the largest city-level visual grounding dataset for localizing specific 3D objects.
Abstract（参考訳）: 都市規模の3dポイントクラウドは、詳細かつ複雑な屋外構造を表現する有望な方法である。これは、自動車、道路、建物を含む分断された都市の構成要素の外観と幾何学的特徴を包含しており、自動運転車やドローンのユーザ対話ナビゲーションのような魅力的な用途に利用できる。しかし、画像や屋内シーンで利用できる広範なテキストアノテーションに比べ、屋外シーンでのテキストアノテーションの不足は、これらのアプリケーションを実現する上で大きな課題となっている。この問題に対処するために,都市レベルの視覚的接地のためのCityReferデータセットを提案する。データセットは、SensatUrbanの都市シーンに現れる3Dオブジェクトの35kの自然言語記述と、OpenStreetMapと同期する5kのランドマークラベルで構成されている。データセットの品質と正確性を保証するため、CityReferデータセットのすべての記述とラベルが手作業で検証される。また,CityReferデータセットに基づく視覚的グラウンド化を行うために,符号化言語記述や3Dオブジェクトインスタンス,都市のランドマークに関する地理情報を学習できるベースラインシステムを開発した。私たちの知る限りでは、cityreferデータセットは、特定の3dオブジェクトをローカライズするための、最大の都市レベルのビジュアルグラウンドデータセットです。

関連論文リスト

Space3D-Bench: Spatial 3D Question Answering Benchmark [49.259397521459114]
Space3D-Benchは、Replicaデータセットのシーンに関連する1000の一般的な空間的質問と回答の集合である。本研究では,事前定義された接地真実解に基づいて,自然言語応答を評価評価するシステムを提案する。最後に,基礎モデルの世界理解をリッチな文脈検索と統合したRAG3D-Chatというベースラインを導入する。
論文参考訳（メタデータ） (2024-08-29T16:05:22Z)
3D Question Answering for City Scene Understanding [12.433903847890322]
3Dマルチモーダル質問応答(MQA)は,知的エージェントが周囲を3D環境下で理解できるようにすることによって,シーン理解において重要な役割を担っている。都市レベルのシーン理解のための3D MQAデータセットCity-3DQAを提案する。新しいベンチマークを報告し,提案したSg-CityUはCity-3DQAの異なる設定で63.94 %と63.76 %の精度を達成する。
論文参考訳（メタデータ） (2024-07-24T16:22:27Z)
Urban Scene Diffusion through Semantic Occupancy Map [49.20779809250597]
UrbanDiffusionは、Bird's-Eye View (BEV)マップに条件付き3次元拡散モデルである。我々のモデルは,潜在空間内のシーンレベルの構造の分布を学習する。実世界の運転データセットをトレーニングした後、我々のモデルは多様な都市シーンを生成することができる。
論文参考訳（メタデータ） (2024-03-18T11:54:35Z)
MatrixCity: A Large-scale City Dataset for City-scale Neural Rendering and Beyond [69.37319723095746]
都市規模のニューラルレンダリング研究のための大規模で包括的で高品質な合成データセットを構築します。本研究では,地上カメラのポーズと追加データモダリティを伴って,航空・街路ビューを容易に収集するパイプラインを構築した。その結果得られたパイロットデータセットMatrixCityには、合計28km2$の2つの都市地図から、67kの空中画像と452kのストリート画像が含まれている。
論文参考訳（メタデータ） (2023-09-28T16:06:02Z)
CityDreamer: Compositional Generative Model of Unbounded 3D Cities [44.203932215464214]
CityDreamerは、非有界な3D都市向けに特別に設計された合成モデルである。我々は、鳥の視線シーン表現を採用し、インスタンス指向と物指向のニューラルフィールドの両方にボリュームレンダリングを採用する。 CityDreamerは、現実的な3D都市を生成するだけでなく、生成された都市内の局所的な編集でも、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-09-01T17:57:02Z)
SensatUrban: Learning Semantics from Urban-Scale Photogrammetric Point Clouds [52.624157840253204]
センサットウルバン(SensatUrban)は、イギリスの3都市から収集された7.6km2の30億点近くからなる、都市規模のUAV測光点クラウドデータセットである。データセットの各ポイントは、粒度の細かいセマンティックアノテーションでラベル付けされ、その結果、既存の最大のフォトグラムポイントクラウドデータセットの3倍の大きさのデータセットが生成される。
論文参考訳（メタデータ） (2022-01-12T14:48:11Z)
Semantic Segmentation on Swiss3DCities: A Benchmark Study on Aerial Photogrammetric 3D Pointcloud Dataset [67.44497676652173]
スイスの3つの都市から採取された総面積2.7 km2$の屋外3Dポイントクラウドデータセットを紹介した。データセットは、ポイントごとのラベルによるセマンティックセグメンテーションのために手動でアノテートされ、高解像度カメラを備えたマルチローターによって取得された画像のフォトグラムを用いて構築される。
論文参考訳（メタデータ） (2020-12-23T21:48:47Z)
Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset, Benchmarks and Challenges [52.624157840253204]
我々は、30億点近い注釈付きポイントを持つ都市規模の測光点クラウドデータセットを提示する。私たちのデータセットは、イギリスの3つの都市からなり、都市の景観の約7.6km2をカバーしています。我々は,データセット上での最先端アルゴリズムの性能を評価し,その結果を包括的に分析する。
論文参考訳（メタデータ） (2020-09-07T14:47:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。