論文の概要: Seeing Fast and Slow: Bimodal 3D Scene Graphs for Open-set Tasks
- arxiv url: http://arxiv.org/abs/2605.31067v2
- Date: Tue, 02 Jun 2026 08:08:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.256494
- Title: Seeing Fast and Slow: Bimodal 3D Scene Graphs for Open-set Tasks
- Title(参考訳): 高速かつスローに見る: オープンセットタスクのためのバイモーダルな3Dシーングラフ
- Authors: Marcel Bartholomeus Prasetyo, Shrutika Vishal Thengane, A Manicka Praveen, Yi Loo, Malika Meghjani,
- Abstract要約: BiMoSGは、オープンセットタスクのためのバイモーダルな3Dシーングラフ生成アプローチである。
提案する3次元シーングラフ生成手法は,オープンソースの最先端手法よりもはるかに高速であることを示す。
- 参考スコア(独自算出の注目度): 2.5641128800447937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-set task execution can significantly benefit from seamlessly switching between coarse and fine scene representations depending on the context and the evolving information as the robot explores the environment. For example, it is often sufficient to start with a coarse scene representation initially and only employ a finer, more granular scene representation when the robot encounters regions which are likely to contain the task relevant objects. Hence, in this work, we propose BiMoSG, a bimodal 3D scene graph generation approach for open-set tasks. BiMoSG employs a "fast" mode by default to efficiently generate a coarse 3D scene graph and can switch to a "slow" mode for generating a finer open vocabulary 3D scene graph of task relevant objects. We demonstrate that our proposed 3D scene graph generation approach is significantly faster than the open-source state-of-the-art approaches. This allows us to integrate the scene graph generation process with task execution for real-time deployment.
- Abstract(参考訳): オープンセットタスク実行は、ロボットが環境を探索する際に、コンテキストや進化する情報に応じて、粗いシーン表現と細かなシーン表現をシームレスに切り替えることの恩恵を受ける。
例えば、まずは粗いシーン表現から始めるのに十分であり、ロボットがタスク関連オブジェクトを含む可能性のある領域に遭遇したときには、より微細で粒度の細かいシーン表現のみを使用する。
そこで本研究では,オープンセットタスクのためのバイモーダル3次元シーングラフ生成手法であるBiMoSGを提案する。
BiMoSGはデフォルトで「高速」モードを使用して、粗い3Dシーングラフを効率よく生成し、タスク関連オブジェクトのより細かいオープンな3Dシーングラフを生成する「スロー」モードに切り替えることができる。
提案する3次元シーングラフ生成手法は,オープンソースの最先端手法よりもはるかに高速であることを示す。
これにより、シーングラフ生成プロセスとタスク実行を統合することで、リアルタイムデプロイメントを可能にします。
関連論文リスト
- ESGNN: Towards Equivariant Scene Graph Neural Network for 3D Scene Understanding [2.5165775267615205]
この研究は、シーン理解のために3Dポイントクラウドからセマンティックシーングラフを生成するために、Equivariant Graph Neural Networkを実装した最初のものである。
提案手法であるESGNNは、既存の最先端手法よりも優れており、より高速な収束によるシーン推定の大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-06-30T06:58:04Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D
Sequences [76.28527350263012]
rgb-dフレームのシーケンスを与えられた3次元環境から意味的シーングラフを漸進的に構築する手法を提案する。
我々は、グラフニューラルネットワークを用いて、プリミティブシーンコンポーネントからpointnet機能を集約する。
提案手法は,35hzで動作する他の3dセマンティクスおよびパンオプティカルセグメンテーション法と同等の精度で,高いマージンで3dシーングラフ予測手法を上回る。
論文 参考訳(メタデータ) (2021-03-27T13:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。