論文の概要: FOUND-IT: Foundation-model-first Task-driven 3D Scene Graphs with Granularity on Demand
- arxiv url: http://arxiv.org/abs/2605.25371v1
- Date: Mon, 25 May 2026 02:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.259239
- Title: FOUND-IT: Foundation-model-first Task-driven 3D Scene Graphs with Granularity on Demand
- Title(参考訳): FOUND-IT: 需要の粒度を考慮したファウンデーションモデルファーストのタスク駆動型3Dシーングラフ
- Authors: Dominic Maggio, Nicolas Gorlo, Luca Carlone,
- Abstract要約: 本研究では,階層型タスク駆動型3次元シーングラフをモノクロカメラを用いてリアルタイムに構築する手法を提案する。
シーングラフの幾何学的属性を推定するために,幾何学的基礎モデルを利用する。
我々のアプローチは、タスクに応じて地図内のオブジェクトや領域の粒度を調整するという意味でタスク駆動である。
- 参考スコア(独自算出の注目度): 13.770305070674299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first approach to build hierarchical task-driven 3D scene graphs of arbitrary indoor or outdoor environments using an uncalibrated monocular camera in real-time. We leverage geometric foundation models to estimate geometric attributes of the scene graph (e.g., object bounding boxes), but we also observe that traversability information (the "places" layer of a scene graph) can be directly reconstructed by adding an extra head to existing geometric foundation models, like VGGT. Our approach is task-driven in the sense that we adjust the granularity of the objects and regions in the map depending on the task; for instance, during a manipulation task, our approach is able to resolve small knobs on a stove, while during a navigation task it can focus on large objects (e.g., the entire stove). However, in a major departure from related work, we consider the realistic case where the list of tasks is not predefined and fixed, but evolves as the robot operates. This naturally allows dealing with complex loco-manipulation tasks, where the robot can dynamically adjust its representation as the task unfolds. We dub the resulting approach FOUND-IT. FOUND-IT also includes an agentic approach to query information in the scene graph. In addition to achieving 79% higher accuracy on the ASHiTA SG3D task grounding benchmark, we demonstrate FOUND-IT runs in real-time on a ground robot using a Jetson Thor. Furthermore, to highlight the robustness of our method, we demonstrate constructing 3D scene graphs on casually captured realtor apartment tours from YouTube. Code will be made available upon publication.
- Abstract(参考訳): 本研究では,非校正単眼カメラを用いて,任意の屋内・屋外環境の階層的タスク駆動型3次元シーングラフをリアルタイムに構築する手法を提案する。
我々は、幾何学的基礎モデルを利用してシーングラフの幾何学的属性(例えば、オブジェクト境界ボックス)を推定するが、また、VGGTのような既存の幾何学的基礎モデルに追加の頭部を追加することで、移動可能性情報(シーングラフの「場所」層)を直接再構成することができる。
例えば、操作タスクの間、我々のアプローチはストーブ上の小さなノブを解決できますが、ナビゲーションタスクの間は大きなオブジェクト(例えば、ストーブ全体)にフォーカスすることができます。
しかし、関連する作業との大きな違いとして、タスクのリストが事前に定義されたり、固定されたりするのではなく、ロボットの動作によって進化する現実的なケースを考える。
ロボットはタスクが展開するにつれて、その表現を動的に調整することができる。
FOUND-ITのアプローチを実証する。
FOUND-ITはまた、シーングラフで情報をクエリするためのエージェント的なアプローチも含んでいる。
また,ASHiTA SG3Dタスク接地ベンチマークの精度を79%向上させるとともに,Jetson Thorを用いた地上ロボット上でFOUND-ITをリアルタイムに動作させることを実証した。
さらに,本手法のロバスト性を強調するために,YouTubeからカジュアルに捕獲したリアルマンションツアーに3次元シーングラフを構築した。
コードは出版時に公開されます。
関連論文リスト
- FunGraph: Functionality Aware 3D Scene Graphs for Language-Prompted Scene Interaction [1.8124328823188356]
本研究の目的は,ロボットが環境と直接対話できる表現を開発することである。
我々は、より細かな解像度でオブジェクトを検出し、保存することに集中し、価格関連部品に焦点をあてる。
現在利用可能な3Dリソースを活用して、2Dデータを生成し、検出器をトレーニングし、標準の3Dシーングラフ生成パイプラインを拡張するために使用します。
論文 参考訳(メタデータ) (2025-03-10T23:13:35Z) - Task-oriented Sequential Grounding and Navigation in 3D Scenes [33.740081195089964]
3D環境における自然言語の接地は、堅牢な3Dビジョン言語アライメントを実現するための重要なステップである。
本研究では,3次元シーンにおけるタスク指向の逐次的グラウンドとナビゲーションという,新しいタスクを紹介する。
SG3Dは22,346のタスクと112,236のステップからなる大規模データセットで、4,895の現実世界の3Dシーンにまたがる。
論文 参考訳(メタデータ) (2024-08-07T18:30:18Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。