Fugu-MT 論文翻訳(概要): OpenCity3D: What do Vision-Language Models know about Urban Environments?

論文の概要: OpenCity3D: What do Vision-Language Models know about Urban Environments?

arxiv url: http://arxiv.org/abs/2503.16776v1
Date: Fri, 21 Mar 2025 01:11:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-24 15:40:10.243313
Title: OpenCity3D: What do Vision-Language Models know about Urban Environments?
Title（参考訳）: OpenCity3D: ビジョンランゲージモデルは都市環境について何を知っているか?
Authors: Valentin Bieri, Marco Zamboni, Nicolas S. Blumer, Qingxuan Chen, Francis Engelmann,
Abstract要約: 視覚言語モデル(VLM)は3次元シーン理解に非常に有望であるが、主に屋内空間や自律運転に応用されている。本研究は,多視点空中画像からの3次元再構成を活用することで,都市環境への利用を拡大する。本稿では, 人口密度推定, 建築年齢分類, 不動産価格予測, 犯罪率評価, 騒音汚染評価などの高レベル課題に対処するOpenCity3Dを提案する。
参考スコア（独自算出の注目度）: 4.468922393753096
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) show great promise for 3D scene understanding but are mainly applied to indoor spaces or autonomous driving, focusing on low-level tasks like segmentation. This work expands their use to urban-scale environments by leveraging 3D reconstructions from multi-view aerial imagery. We propose OpenCity3D, an approach that addresses high-level tasks, such as population density estimation, building age classification, property price prediction, crime rate assessment, and noise pollution evaluation. Our findings highlight OpenCity3D's impressive zero-shot and few-shot capabilities, showcasing adaptability to new contexts. This research establishes a new paradigm for language-driven urban analytics, enabling applications in planning, policy, and environmental monitoring. See our project page: opencity3d.github.io
Abstract（参考訳）: 視覚言語モデル(VLM)は3Dシーン理解に非常に有望であるが、主に屋内空間や自律運転に適用され、セグメンテーションのような低レベルなタスクに重点を置いている。本研究は,多視点空中画像からの3次元再構成を活用することで,都市環境への利用を拡大する。本稿では, 人口密度推定, 建築年齢分類, 不動産価格予測, 犯罪率評価, 騒音汚染評価などの高レベル課題に対処するOpenCity3Dを提案する。われわれの発見はOpenCity3Dの印象的なゼロショット機能と少数ショット機能を強調し、新しいコンテキストへの適応性を示している。本研究は、言語駆動型都市分析の新しいパラダイムを確立し、計画、政策、環境モニタリングへの応用を可能にする。プロジェクトのページは、opencity3d.github.ioを参照してください。

関連論文リスト

EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [63.99937807085461]
3D占有予測は周囲のシーンを包括的に記述する。既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-05T17:57:09Z)
Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy [68.50785963043161]
GemBenchは視覚言語ロボット操作ポリシーの一般化能力を評価するための新しいベンチマークである。 LLMのタスク計画機能と3D-LOTUSの動作計画機能を統合するフレームワークである3D-LOTUS++を提案する。 3D-LOTUS++はGemBenchの新しいタスクで最先端のパフォーマンスを実現し、ロボット操作の一般化のための新しい標準を設定している。
論文参考訳（メタデータ） (2024-10-02T09:02:34Z)
CityX: Controllable Procedural Content Generation for Unbounded 3D Cities [50.10101235281943]
現在の生成法は多様性、可制御性または忠実度に乏しい。本研究では,高忠実度生成のための手続き的コンテンツ生成(PCG)技術を利用する。我々は,OSM,セマンティックマップ,衛星画像などのマルチモーダル命令を実行可能なプログラムに変換するマルチエージェントフレームワークを開発した。提案手法はCityXと呼ばれ,多種多様で制御可能でリアルな3D都市景観の創出において,その優位性を実証するものである。
論文参考訳（メタデータ） (2024-07-24T18:05:13Z)
3D Question Answering for City Scene Understanding [12.433903847890322]
3Dマルチモーダル質問応答(MQA)は,知的エージェントが周囲を3D環境下で理解できるようにすることによって,シーン理解において重要な役割を担っている。都市レベルのシーン理解のための3D MQAデータセットCity-3DQAを提案する。新しいベンチマークを報告し,提案したSg-CityUはCity-3DQAの異なる設定で63.94 %と63.76 %の精度を達成する。
論文参考訳（メタデータ） (2024-07-24T16:22:27Z)
CityCraft: A Real Crafter for 3D City Generation [25.7885801163556]
CityCraftは、都市シーン生成の多様性と品質の両方を強化するために設計された革新的なフレームワークである。提案手法は,まず拡散変圧器(DiT)モデルを用いて,多種かつ制御可能な2次元都市レイアウトを生成する。生成したレイアウトと都市計画に基づいて,Blenderとアセット検索モジュールを用いて,正確なアセット配置とシーン構築を行う。
論文参考訳（メタデータ） (2024-06-07T14:49:00Z)
Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文参考訳（メタデータ） (2024-05-16T18:03:41Z)
HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文参考訳（メタデータ） (2024-03-19T13:39:05Z)
CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data [15.526523262690965]
都市レベルの視覚的接地のためのCityReferデータセットについて紹介する。データセットは、SensatUrbanの都市シーンに現れる3Dオブジェクトの35kの自然言語記述と、OpenStreetMapと同期する5kのランドマークラベルで構成されている。
論文参考訳（メタデータ） (2023-10-28T18:05:32Z)
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。 2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文参考訳（メタデータ） (2023-09-28T17:53:38Z)
CityDreamer: Compositional Generative Model of Unbounded 3D Cities [44.203932215464214]
CityDreamerは、非有界な3D都市向けに特別に設計された合成モデルである。我々は、鳥の視線シーン表現を採用し、インスタンス指向と物指向のニューラルフィールドの両方にボリュームレンダリングを採用する。 CityDreamerは、現実的な3D都市を生成するだけでなく、生成された都市内の局所的な編集でも、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-09-01T17:57:02Z)
Building3D: An Urban-Scale Dataset and Benchmarks for Learning Roof Structures from Point Clouds [4.38301148531795]
既存の3Dモデリング用のデータセットは主に家具や車などの一般的なオブジェクトに焦点を当てている。エストニアの16都市約998Km2をカバーする,160万以上の建物と対応する点雲,メッシュ,ワイヤフレームモデルからなる都市規模データセットを提案する。実験結果から,ビルディング3Dには高いクラス内分散,データ不均衡,大規模ノイズといった課題があることが示唆された。
論文参考訳（メタデータ） (2023-07-21T21:38:57Z)
LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文参考訳（メタデータ） (2021-07-07T18:55:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。