Fugu-MT 論文翻訳(概要): 3D Question Answering for City Scene Understanding

論文の概要: 3D Question Answering for City Scene Understanding

arxiv url: http://arxiv.org/abs/2407.17398v1
Date: Wed, 24 Jul 2024 16:22:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 13:15:22.800328
Title: 3D Question Answering for City Scene Understanding
Title（参考訳）: 都市景観理解のための3次元質問応答
Authors: Penglei Sun, Yaoxian Song, Xiang Liu, Xiaofei Yang, Qiang Wang, Tiefeng Li, Yang Yang, Xiaowen Chu,
Abstract要約: 3Dマルチモーダル質問応答(MQA)は,知的エージェントが周囲を3D環境下で理解できるようにすることによって,シーン理解において重要な役割を担っている。都市レベルのシーン理解のための3D MQAデータセットCity-3DQAを提案する。新しいベンチマークを報告し,提案したSg-CityUはCity-3DQAの異なる設定で63.94 %と63.76 %の精度を達成する。
参考スコア（独自算出の注目度）: 12.433903847890322
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D multimodal question answering (MQA) plays a crucial role in scene understanding by enabling intelligent agents to comprehend their surroundings in 3D environments. While existing research has primarily focused on indoor household tasks and outdoor roadside autonomous driving tasks, there has been limited exploration of city-level scene understanding tasks. Furthermore, existing research faces challenges in understanding city scenes, due to the absence of spatial semantic information and human-environment interaction information at the city level.To address these challenges, we investigate 3D MQA from both dataset and method perspectives. From the dataset perspective, we introduce a novel 3D MQA dataset named City-3DQA for city-level scene understanding, which is the first dataset to incorporate scene semantic and human-environment interactive tasks within the city. From the method perspective, we propose a Scene graph enhanced City-level Understanding method (Sg-CityU), which utilizes the scene graph to introduce the spatial semantic. A new benchmark is reported and our proposed Sg-CityU achieves accuracy of 63.94 % and 63.76 % in different settings of City-3DQA. Compared to indoor 3D MQA methods and zero-shot using advanced large language models (LLMs), Sg-CityU demonstrates state-of-the-art (SOTA) performance in robustness and generalization.
Abstract（参考訳）: 3Dマルチモーダル質問応答(MQA)は,知的エージェントが周囲を3D環境下で理解できるようにすることによって,シーン理解において重要な役割を担っている。既存の研究は主に家庭内タスクと屋外の道路側自動運転タスクに重点を置いているが、都市レベルのシーン理解タスクは限られている。さらに, 都市レベルでの空間的意味情報や人間と環境の相互作用情報が欠如していることから, 都市環境理解の課題に直面しており, これらの課題に対処するために, データセットと手法の両方の観点から3D MQAを調査する。都市レベルのシーン理解のための3D MQAデータセットであるCity-3DQAを導入する。手法の観点から,シーングラフを用いて空間意味を導入した都市レベル理解手法(Sg-CityU)を提案する。新しいベンチマークを報告し,提案したSg-CityUはCity-3DQAの異なる設定で63.94 %と63.76 %の精度を達成する。高度大言語モデル(LLM)を用いた屋内3D MQA法やゼロショットと比較して、Sg-CityUは堅牢性と一般化において最先端(SOTA)性能を示す。

関連論文リスト

DSM: Building A Diverse Semantic Map for 3D Visual Grounding [4.89669292144966]
本研究では,3次元視覚接地作業を行うロボットエージェントを対象とした多種多様な意味マップ構築手法を提案する。本手法は多モード大言語モデル(VLM)を利用してシーン内のオブジェクトの潜在意味的属性と関係を捕捉し,幾何学的スライディングウインドウマップ構築戦略により,DSM(Diverse Semantic Map)を作成する。実験結果から,本手法はセマンティックセグメンテーションや3次元視覚グラウンディングといったタスクにおける現在の手法よりも優れており,特に,最先端の手法と比較して総合的に優れていることがわかった。
論文参考訳（メタデータ） (2025-04-11T07:18:42Z)
SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining [100.23919762298227]
SceneSplatは,3DGS上で動作する最初の大規模屋内シーン理解手法である。また,ラベルのないシーンからリッチな3D特徴学習を解放する自己教師型学習手法を提案する。 SceneSplat-7Kは、6868シーンからなる屋内シーンのための最初の大規模3DGSデータセットである。
論文参考訳（メタデータ） (2025-03-23T12:50:25Z)
OpenCity3D: What do Vision-Language Models know about Urban Environments? [4.468922393753096]
視覚言語モデル(VLM)は3次元シーン理解に非常に有望であるが、主に屋内空間や自律運転に応用されている。本研究は,多視点空中画像からの3次元再構成を活用することで,都市環境への利用を拡大する。本稿では, 人口密度推定, 建築年齢分類, 不動産価格予測, 犯罪率評価, 騒音汚染評価などの高レベル課題に対処するOpenCity3Dを提案する。
論文参考訳（メタデータ） (2025-03-21T01:11:21Z)
CityEQA: A Hierarchical LLM Agent on Embodied Question Answering Benchmark in City Space [35.223263448229716]
EQA(Embodied Question Answering)は主に屋内環境に焦点を当てている。本研究では,ダイナミックな都市空間における活発な探索を通じてオープンな語彙に答える新しい課題であるCityEQAを紹介する。我々は,1,412の人的注釈付きタスクを含む最初のベンチマークデータセットであるCityEQA-ECを提示する。また,CityEQA に適した新規エージェントである Planner-Manager-Actor (PMA) を提案する。
論文参考訳（メタデータ） (2025-02-18T04:36:15Z)
GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering [23.459190671283487]
EQA(Embodied Question Answering)では、エージェントは、位置した質問に自信を持って答えるために、目に見えない環境の意味的な理解を探求し、発展させなければならない。本稿では,リアルタイムな3次元メトリセマンティックシーングラフ(3DSG)とタスク関連画像をマルチモーダルメモリとして利用して視覚言語モデル(VLM)を構築する新しいアプローチであるGraphEQAを提案する。我々は,3DSGの階層性を利用した階層的計画手法を用いて,構造化計画と意味誘導探索を行う。
論文参考訳（メタデータ） (2024-12-19T03:04:34Z)
Space3D-Bench: Spatial 3D Question Answering Benchmark [49.259397521459114]
Space3D-Benchは、Replicaデータセットのシーンに関連する1000の一般的な空間的質問と回答の集合である。本研究では,事前定義された接地真実解に基づいて,自然言語応答を評価評価するシステムを提案する。最後に,基礎モデルの世界理解をリッチな文脈検索と統合したRAG3D-Chatというベースラインを導入する。
論文参考訳（メタデータ） (2024-08-29T16:05:22Z)
CityX: Controllable Procedural Content Generation for Unbounded 3D Cities [50.10101235281943]
現在の生成法は多様性、可制御性または忠実度に乏しい。本研究では,高忠実度生成のための手続き的コンテンツ生成(PCG)技術を利用する。我々は,OSM,セマンティックマップ,衛星画像などのマルチモーダル命令を実行可能なプログラムに変換するマルチエージェントフレームワークを開発した。提案手法はCityXと呼ばれ,多種多様で制御可能でリアルな3D都市景観の創出において,その優位性を実証するものである。
論文参考訳（メタデータ） (2024-07-24T18:05:13Z)
UrbanWorld: An Urban World Model for 3D City Generation [21.21375372182025]
UrbanWorldは、フレキシブルな制御条件を備えたカスタマイズされたリアルでインタラクティブな3D都市世界を自動生成できる、ジェネレーティブな都市世界モデルである。我々は5つの視覚的指標について広範囲に定量的に分析を行い、UrbanWorldがSOTA生成リアリズムを実現していることを示す。エージェントの認識とナビゲーションを生成環境内で示すことで,これらの環境のインタラクティブな性質を検証する。
論文参考訳（メタデータ） (2024-07-16T17:59:29Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクの整合性を高めるための総合的枠組みを提案する。我々のフレームワークは、スパースクエリを使って視覚表現を3Dに上げ、圧縮する新しい3DMLLMアーキテクチャから始まります。 OmniDrive-nuScenesは、モデルの真の3次元状況認識に挑戦する新しい視覚的質問応答データセットである。
論文参考訳（メタデータ） (2024-05-02T17:59:24Z)
HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文参考訳（メタデータ） (2024-03-19T13:39:05Z)
CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data [15.526523262690965]
都市レベルの視覚的接地のためのCityReferデータセットについて紹介する。データセットは、SensatUrbanの都市シーンに現れる3Dオブジェクトの35kの自然言語記述と、OpenStreetMapと同期する5kのランドマークラベルで構成されている。
論文参考訳（メタデータ） (2023-10-28T18:05:32Z)
HRHD-HK: A benchmark dataset of high-rise and high-density urban scenes for 3D semantic segmentation of photogrammetric point clouds [0.40964539027092917]
本稿では,香港(HRHD-HK)の高層都市点雲,すなわち高層・高密度都市景観のベンチマークデータセットを提案する。 150のタイルに配置されたHRHD-HKには、さまざまな都市環境から2億2300万のカラフルな3Dポイントが含まれています。本稿では,HRHD-HKデータセット上での8つの一般的なセマンティックセマンティックセマンティクス手法を包括的に評価する。
論文参考訳（メタデータ） (2023-07-16T07:57:03Z)
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文参考訳（メタデータ） (2023-06-04T11:08:53Z)
SQA3D: Situated Question Answering in 3D Scenes [86.0205305318308]
エンボディエージェントのシーン理解をベンチマークする新しいタスクを提案する:3次元シーンにおける質問回答(SQA3D) シーンコンテキストが与えられた場合、SQA3Dはテスト対象のエージェントに対して、まずテキストによって記述された3Dシーンの状況を理解し、その環境を判断し、その状況下での質問に答えるように要求する。 ScanNetの650のシーンに基づいて、20.4kの記述と33.4kの多様な推論問題とともに、6.8kのユニークな状況を中心としたデータセットを提供する。
論文参考訳（メタデータ） (2022-10-14T02:52:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。