Fugu-MT 論文翻訳(概要): RGB-only Active 3D Scene Graph Generation for Indoor Mobile Robots

論文の概要: RGB-only Active 3D Scene Graph Generation for Indoor Mobile Robots

arxiv url: http://arxiv.org/abs/2605.18197v1
Date: Mon, 18 May 2026 10:37:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:49.402513
Title: RGB-only Active 3D Scene Graph Generation for Indoor Mobile Robots
Title（参考訳）: 室内移動ロボットのためのRGB専用アクティブ3次元シーングラフ生成
Authors: Giorgia Modi, Davide Buoso, Giuseppe Averta, Daniele De Martini,
Abstract要約: 3Dシーングラフ生成への現在のアプローチは、メトリック3D再構成のためにLiDARやRGB-Dカメラのような専用深度センサーに依存している。本稿では,RGB入力のみからの3次元シーングラフの能動的・漸進的な構築のための,完全な視覚的枠組みを提案する。
参考スコア（独自算出の注目度）: 11.977612002830725
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current approaches to 3D scene graph generation rely on dedicated depth sensors, such as LiDAR or RGB-D cameras, for metric 3D reconstruction. This limits deployment to specialized robotic platforms and excludes settings where only RGB cameras are available, such as fixed external infrastructure. Existing pipelines also typically operate on passively collected observation trajectories, rather than selecting viewpoints based on the partially built scene representation, and therefore fail to effectively exploit the semantic and spatial information encoded within the graph during exploration. This paper presents a fully visual framework for the active, incremental construction of 3D scene graphs from RGB input only, addressing both limitations. The proposed approach unifies perception and planning around a shared structured representation that captures object semantics, 3D geometry, relational context, and information from multiple viewpoints. Because the framework is hardware-agnostic and relies only on RGB observations, it can incorporate inputs from both onboard robot cameras and fixed external cameras within the same representation. Experiments on the Replica dataset show that the RGB-only pipeline achieves F1-score parity with baselines using ground-truth depth. Active exploration experiments on ReplicaCAD further show that semantic-driven viewpoint selection detects more than twice as many objects as a geometric frontier-based baseline under the same exploration budget. Finally, the external-camera setting demonstrates that complementary RGB views can effectively bootstrap the scene graph and improve contextual understanding at no additional exploration cost.
Abstract（参考訳）: 3Dシーングラフ生成への現在のアプローチは、メトリック3D再構成のためにLiDARやRGB-Dカメラのような専用深度センサーに依存している。これにより、特殊なロボットプラットフォームへのデプロイメントが制限され、外部インフラストラクチャの固定など、RGBカメラのみが利用可能な設定が除外される。既存のパイプラインは、部分的に構築されたシーン表現に基づいて視点を選択するのではなく、受動的に収集された観測軌道で運用されるため、探索中にグラフ内に符号化された意味情報や空間情報を効果的に活用することができない。本稿では,RGB入力のみからの3次元シーングラフの能動的・漸進的な構築のための視覚的枠組みを提案する。提案手法は,オブジェクトのセマンティクス,3次元幾何,関係コンテキスト,複数の視点からの情報をキャプチャする共有構造化表現に関する認識と計画を統一する。このフレームワークはハードウェアに依存しないため、RGB観測のみに依存しているため、搭載されているロボットカメラと固定外付けカメラの両方からの入力を同じ表現に組み込むことができる。 Replicaデータセットの実験では、RGBのみのパイプラインがベースラインとF1スコアのパリティを接地木深度で達成している。 ReplicaCAD上での活発な探索実験により、意味駆動的な視点選択は、同じ探索予算の下で、幾何学的フロンティアベースのベースラインの2倍以上のオブジェクトを検出することが示された。最後に、外部カメラ設定は、補完的なRGBビューがシーングラフを効果的にブートストラップし、追加の探索コストなしでコンテキスト理解を改善することを示した。

関連論文リスト

Fixed External Cameras as Common Prior Maps for Active 3D Scene Graph Generation [11.977612002830725]
本稿では,ロボットカメラと固定外付けカメラの両方の観察を,ハードウェアに依存しない単一のパイプライン内でシームレスに融合する,アクティブでインクリメンタルな3Dシーングラフ生成のためのRGB専用フレームワークを提案する。実験では、シーングラフを1台の外部カメラでブートストラップすることで、初期オブジェクトのリコールが+79%増加し、事前のリッチなコンテキストがその後のアクティブな探索の効率を大幅に向上することを示した。
論文参考訳（メタデータ） (2026-05-18T10:26:07Z)
Point2Graph: An End-to-end Point Cloud-based 3D Open-Vocabulary Scene Graph for Robot Navigation [7.048930431483034]
Point2Graphは、新しいエンドツーエンドのクラウドベースのオープンな3Dシーングラフ生成フレームワークである。部屋層では,幾何学に基づく境界検出アルゴリズムと学習に基づく領域検出とを融合して,部屋をセグメント化する利点を生かした。さらに、オブジェクト層のためのエンドツーエンドパイプラインを作成し、3Dポイントクラウドデータのみに基づいて3Dオブジェクトを検出し分類する。
論文参考訳（メタデータ） (2024-09-16T15:01:28Z)
Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [60.48134767838629]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文参考訳（メタデータ） (2023-10-09T02:15:45Z)
Artifacts Mapping: Multi-Modal Semantic Mapping for Object Detection and 3D Localization [13.473742114288616]
既知の環境下でオブジェクトを自律的に検出・ローカライズするフレームワークを提案する。フレームワークは,RGBデータによる環境理解,マルチモーダルセンサ融合による深度推定,アーティファクト管理という,3つの重要な要素で構成されている。実験の結果,提案フレームワークは実サンプル環境におけるオブジェクトの98%を後処理なしで正確に検出できることがわかった。
論文参考訳（メタデータ） (2023-07-03T15:51:39Z)
One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文参考訳（メタデータ） (2022-10-21T17:33:14Z)
Beyond Visual Field of View: Perceiving 3D Environment with Echoes and Vision [51.385731364529306]
本稿では,エコーとRGB画像を用いた3次元環境の知覚とナビゲーションに焦点を当てた。特に、複数の方向から受信したエコーでRGB画像を融合して深度推定を行う。本稿では,RGB像を補完する3次元構造について,エコーが包括的かつ包括的情報を提供することを示す。
論文参考訳（メタデータ） (2022-07-03T22:31:47Z)
RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。 RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。 RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文参考訳（メタデータ） (2021-06-22T12:53:56Z)
Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文参考訳（メタデータ） (2021-03-14T11:18:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。