論文の概要: ROOT: VLM based System for Indoor Scene Understanding and Beyond
- arxiv url: http://arxiv.org/abs/2411.15714v1
- Date: Sun, 24 Nov 2024 04:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:58.872331
- Title: ROOT: VLM based System for Indoor Scene Understanding and Beyond
- Title(参考訳): ROOT:VLMを用いた屋内シーン理解・可視化システム
- Authors: Yonghui Wang, Shi-Yong Chen, Zhenxing Zhou, Siyi Li, Haoran Li, Wengang Zhou, Houqiang Li,
- Abstract要約: ROOTは、室内シーンの分析を強化するために設計されたVLMベースのシステムである。
rootnameは、屋内シーンの理解を促進し、3Dシーン生成や組み込みAIなど、さまざまな下流アプリケーションに有効であることを証明します。
- 参考スコア(独自算出の注目度): 83.71252153660078
- License:
- Abstract: Recently, Vision Language Models (VLMs) have experienced significant advancements, yet these models still face challenges in spatial hierarchical reasoning within indoor scenes. In this study, we introduce ROOT, a VLM-based system designed to enhance the analysis of indoor scenes. Specifically, we first develop an iterative object perception algorithm using GPT-4V to detect object entities within indoor scenes. This is followed by employing vision foundation models to acquire additional meta-information about the scene, such as bounding boxes. Building on this foundational data, we propose a specialized VLM, SceneVLM, which is capable of generating spatial hierarchical scene graphs and providing distance information for objects within indoor environments. This information enhances our understanding of the spatial arrangement of indoor scenes. To train our SceneVLM, we collect over 610,000 images from various public indoor datasets and implement a scene data generation pipeline with a semi-automated technique to establish relationships and estimate distances among indoor objects. By utilizing this enriched data, we conduct various training recipes and finish SceneVLM. Our experiments demonstrate that \rootname facilitates indoor scene understanding and proves effective in diverse downstream applications, such as 3D scene generation and embodied AI. The code will be released at \url{https://github.com/harrytea/ROOT}.
- Abstract(参考訳): 近年、視覚言語モデル (VLM) は大きな進歩を遂げているが、これらのモデルは屋内シーンにおける空間的階層的推論の課題に直面している。
本研究では,室内シーン分析の強化を目的としたVLMシステムであるROOTを紹介する。
具体的には、まずGPT-4Vを用いた反復物体認識アルゴリズムを開発し、室内シーン内の物体を検知する。
続いて視覚基盤モデルを使用して、バウンディングボックスなどのシーンに関するメタ情報を取得する。
この基礎データに基づいて,空間階層的なシーングラフを生成し,室内環境内のオブジェクトに距離情報を提供する,特殊なVLM,SceneVLMを提案する。
この情報により,屋内シーンの空間的配置の理解が深まる。
SceneVLMをトレーニングするために、さまざまな屋内データセットから610,000枚以上の画像を収集し、半自動でシーンデータ生成パイプラインを実装し、屋内オブジェクト間の関係を確立し、距離を推定する。
このリッチなデータを利用することで、様々なトレーニングレシピを実行し、SceneVLMを完成させる。
実験により, 屋内シーンの理解が促進され, 3次元シーン生成やAIの具体化など, 下流の多様な応用に有効であることが実証された。
コードは \url{https://github.com/harrytea/ROOT} でリリースされる。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - Monocular Occupancy Prediction for Scalable Indoor Scenes [56.686307396496545]
そこで本研究では,モノクロ画像を用いた屋内シーン占有率の予測手法であるISOを提案する。
ISOは、事前訓練された深度モデルの利点を利用して正確な深度予測を行う。
Occ-ScanNetは屋内シーンの大規模占有ベンチマークである。
論文 参考訳(メタデータ) (2024-07-16T13:50:40Z) - Open-Universe Indoor Scene Generation using LLM Program Synthesis and Uncurated Object Databases [13.126239167800652]
テキストのプロンプトに応じて屋内シーンを生成するシステムを提案する。
プロンプトはシーン記述の固定語彙に限らない。
生成されたシーンのオブジェクトは、固定されたオブジェクトカテゴリに制限されない。
論文 参考訳(メタデータ) (2024-02-05T01:59:31Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z) - Indoor and Outdoor 3D Scene Graph Generation via Language-Enabled Spatial Ontologies [16.396336068724484]
本稿では,任意の屋内環境と屋外環境に3次元シーングラフを構築する手法を提案する。
屋外環境を記述する概念の階層構造は、屋内よりも複雑である。
トレーニングデータの欠如は、屋内環境で使用される学習ベースのツールの直接的な適用を妨げる。
論文 参考訳(メタデータ) (2023-12-18T21:20:28Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Indoor Scene Generation from a Collection of Semantic-Segmented Depth
Images [18.24156991697044]
セマンティックセグメンテーション深度画像から学習した生成モデルを用いて室内3次元シーンを作成する手法を提案する。
特定の大きさの部屋が与えられた場合、ランダムにサンプリングされた潜伏コードから室内の3Dオブジェクトを自動的に生成する。
既存の手法と比較して,本手法はモデリングや3次元シーンの取得の作業量を効率的に削減するだけでなく,より優れたオブジェクト形状を生成する。
論文 参考訳(メタデータ) (2021-08-20T06:22:49Z) - Walk2Map: Extracting Floor Plans from Indoor Walk Trajectories [23.314557741879664]
室内を歩く人の軌跡からフロアプランを生成するデータ駆動型アプローチであるWalk2Mapを紹介します。
データ駆動慣性オドメトリーの進歩により、そのような最小限の入力データは、コンシューマレベルのスマートフォンのIMU読み取りから得ることができる。
スキャンした3d屋内モデルを用いてネットワークをトレーニングし、屋内歩行軌跡にカスケードな方法で適用する。
論文 参考訳(メタデータ) (2021-02-27T16:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。