論文の概要: 3D Question Answering for City Scene Understanding
- arxiv url: http://arxiv.org/abs/2407.17398v1
- Date: Wed, 24 Jul 2024 16:22:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 13:15:22.800328
- Title: 3D Question Answering for City Scene Understanding
- Title(参考訳): 都市景観理解のための3次元質問応答
- Authors: Penglei Sun, Yaoxian Song, Xiang Liu, Xiaofei Yang, Qiang Wang, Tiefeng Li, Yang Yang, Xiaowen Chu,
- Abstract要約: 3Dマルチモーダル質問応答(MQA)は,知的エージェントが周囲を3D環境下で理解できるようにすることによって,シーン理解において重要な役割を担っている。
都市レベルのシーン理解のための3D MQAデータセットCity-3DQAを提案する。
新しいベンチマークを報告し,提案したSg-CityUはCity-3DQAの異なる設定で63.94 %と63.76 %の精度を達成する。
- 参考スコア(独自算出の注目度): 12.433903847890322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D multimodal question answering (MQA) plays a crucial role in scene understanding by enabling intelligent agents to comprehend their surroundings in 3D environments. While existing research has primarily focused on indoor household tasks and outdoor roadside autonomous driving tasks, there has been limited exploration of city-level scene understanding tasks. Furthermore, existing research faces challenges in understanding city scenes, due to the absence of spatial semantic information and human-environment interaction information at the city level.To address these challenges, we investigate 3D MQA from both dataset and method perspectives. From the dataset perspective, we introduce a novel 3D MQA dataset named City-3DQA for city-level scene understanding, which is the first dataset to incorporate scene semantic and human-environment interactive tasks within the city. From the method perspective, we propose a Scene graph enhanced City-level Understanding method (Sg-CityU), which utilizes the scene graph to introduce the spatial semantic. A new benchmark is reported and our proposed Sg-CityU achieves accuracy of 63.94 % and 63.76 % in different settings of City-3DQA. Compared to indoor 3D MQA methods and zero-shot using advanced large language models (LLMs), Sg-CityU demonstrates state-of-the-art (SOTA) performance in robustness and generalization.
- Abstract(参考訳): 3Dマルチモーダル質問応答(MQA)は,知的エージェントが周囲を3D環境下で理解できるようにすることによって,シーン理解において重要な役割を担っている。
既存の研究は主に家庭内タスクと屋外の道路側自動運転タスクに重点を置いているが、都市レベルのシーン理解タスクは限られている。
さらに, 都市レベルでの空間的意味情報や人間と環境の相互作用情報が欠如していることから, 都市環境理解の課題に直面しており, これらの課題に対処するために, データセットと手法の両方の観点から3D MQAを調査する。
都市レベルのシーン理解のための3D MQAデータセットであるCity-3DQAを導入する。
手法の観点から,シーングラフを用いて空間意味を導入した都市レベル理解手法(Sg-CityU)を提案する。
新しいベンチマークを報告し,提案したSg-CityUはCity-3DQAの異なる設定で63.94 %と63.76 %の精度を達成する。
高度大言語モデル(LLM)を用いた屋内3D MQA法やゼロショットと比較して、Sg-CityUは堅牢性と一般化において最先端(SOTA)性能を示す。
関連論文リスト
- CityEQA: A Hierarchical LLM Agent on Embodied Question Answering Benchmark in City Space [35.223263448229716]
EQA(Embodied Question Answering)は主に屋内環境に焦点を当てている。
本研究では,ダイナミックな都市空間における活発な探索を通じてオープンな語彙に答える新しい課題であるCityEQAを紹介する。
我々は,1,412の人的注釈付きタスクを含む最初のベンチマークデータセットであるCityEQA-ECを提示する。
また,CityEQA に適した新規エージェントである Planner-Manager-Actor (PMA) を提案する。
論文 参考訳(メタデータ) (2025-02-18T04:36:15Z) - GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering [23.459190671283487]
EQA(Embodied Question Answering)では、エージェントは、位置した質問に自信を持って答えるために、目に見えない環境の意味的な理解を探求し、発展させなければならない。
本稿では,リアルタイムな3次元メトリセマンティックシーングラフ(3DSG)とタスク関連画像をマルチモーダルメモリとして利用して視覚言語モデル(VLM)を構築する新しいアプローチであるGraphEQAを提案する。
我々は,3DSGの階層性を利用した階層的計画手法を用いて,構造化計画と意味誘導探索を行う。
論文 参考訳(メタデータ) (2024-12-19T03:04:34Z) - Space3D-Bench: Spatial 3D Question Answering Benchmark [49.259397521459114]
Space3D-Benchは、Replicaデータセットのシーンに関連する1000の一般的な空間的質問と回答の集合である。
本研究では,事前定義された接地真実解に基づいて,自然言語応答を評価評価するシステムを提案する。
最後に,基礎モデルの世界理解をリッチな文脈検索と統合したRAG3D-Chatというベースラインを導入する。
論文 参考訳(メタデータ) (2024-08-29T16:05:22Z) - CityX: Controllable Procedural Content Generation for Unbounded 3D Cities [50.10101235281943]
現在の生成法は多様性、可制御性または忠実度に乏しい。
本研究では,高忠実度生成のための手続き的コンテンツ生成(PCG)技術を利用する。
我々は,OSM,セマンティックマップ,衛星画像などのマルチモーダル命令を実行可能なプログラムに変換するマルチエージェントフレームワークを開発した。
提案手法はCityXと呼ばれ,多種多様で制御可能でリアルな3D都市景観の創出において,その優位性を実証するものである。
論文 参考訳(メタデータ) (2024-07-24T18:05:13Z) - UrbanWorld: An Urban World Model for 3D City Generation [21.21375372182025]
UrbanWorldは、フレキシブルな制御条件を備えたカスタマイズされたリアルでインタラクティブな3D都市世界を自動生成できる、ジェネレーティブな都市世界モデルである。
我々は5つの視覚的指標について広範囲に定量的に分析を行い、UrbanWorldがSOTA生成リアリズムを実現していることを示す。
エージェントの認識とナビゲーションを生成環境内で示すことで,これらの環境のインタラクティブな性質を検証する。
論文 参考訳(メタデータ) (2024-07-16T17:59:29Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクの整合性を高めるための総合的枠組みを提案する。
我々のフレームワークは、スパースクエリを使って視覚表現を3Dに上げ、圧縮する新しい3DMLLMアーキテクチャから始まります。
OmniDrive-nuScenesは、モデルの真の3次元状況認識に挑戦する新しい視覚的質問応答データセットである。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale
Point Cloud Data [15.526523262690965]
都市レベルの視覚的接地のためのCityReferデータセットについて紹介する。
データセットは、SensatUrbanの都市シーンに現れる3Dオブジェクトの35kの自然言語記述と、OpenStreetMapと同期する5kのランドマークラベルで構成されている。
論文 参考訳(メタデータ) (2023-10-28T18:05:32Z) - SQA3D: Situated Question Answering in 3D Scenes [86.0205305318308]
エンボディエージェントのシーン理解をベンチマークする新しいタスクを提案する:3次元シーンにおける質問回答(SQA3D)
シーンコンテキストが与えられた場合、SQA3Dはテスト対象のエージェントに対して、まずテキストによって記述された3Dシーンの状況を理解し、その環境を判断し、その状況下での質問に答えるように要求する。
ScanNetの650のシーンに基づいて、20.4kの記述と33.4kの多様な推論問題とともに、6.8kのユニークな状況を中心としたデータセットを提供する。
論文 参考訳(メタデータ) (2022-10-14T02:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。