論文の概要: Relational Semantic Reasoning on 3D Scene Graphs for Open World Interactive Object Search
- arxiv url: http://arxiv.org/abs/2603.05642v1
- Date: Thu, 05 Mar 2026 19:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.477852
- Title: Relational Semantic Reasoning on 3D Scene Graphs for Open World Interactive Object Search
- Title(参考訳): オープンワールド対話型オブジェクト探索のための3次元シーングラフのリレーショナルセマンティック推論
- Authors: Imen Mahdi, Matteo Cassinelli, Fabien Despinoy, Tim Welschehold, Abhinav Valada,
- Abstract要約: SCOUT: Scene Graph-Based Exploration with Learned Utility for Open-World Interactive Object Searchを紹介する。
SCOUTは部屋、フロンティア、オブジェクトにユーティリティスコアを割り当てることで、3Dシーングラフを直接検索する。
対話型オブジェクト検索タスクにおける意味的推論を評価するためのスケーラブルなシンボリックベンチマークであるSymSearchを提案する。
- 参考スコア(独自算出の注目度): 14.297888615008041
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-world interactive object search in household environments requires understanding semantic relationships between objects and their surrounding context to guide exploration efficiently. Prior methods either rely on vision-language embeddings similarity, which does not reliably capture task-relevant relational semantics, or large language models (LLMs), which are too slow and costly for real-time deployment. We introduce SCOUT: Scene Graph-Based Exploration with Learned Utility for Open-World Interactive Object Search, a novel method that searches directly over 3D scene graphs by assigning utility scores to rooms, frontiers, and objects using relational exploration heuristics such as room-object containment and object-object co-occurrence. To make this practical without sacrificing open-vocabulary generalization, we propose an offline procedural distillation framework that extracts structured relational knowledge from LLMs into lightweight models for on-robot inference. Furthermore, we present SymSearch, a scalable symbolic benchmark for evaluating semantic reasoning in interactive object search tasks. Extensive evaluations across symbolic and simulation environments show that SCOUT outperforms embedding similarity-based methods and matches LLM-level performance while remaining computationally efficient. Finally, real-world experiments demonstrate effective transfer to physical environments, enabling open-world interactive object search under realistic sensing and navigation constraints.
- Abstract(参考訳): 家庭環境におけるオープンワールドの対話型オブジェクト検索は、探索を効率的に導くために、オブジェクトとその周囲のコンテキスト間の意味的関係を理解する必要がある。
従来の手法では、タスク関連リレーショナルセマンティクス(LLM)を確実にキャプチャできない視覚言語埋め込みの類似性や、リアルタイムデプロイメントには遅すぎてコストがかかりすぎる大規模言語モデル(LLM)に依存していた。
SCOUT: Scene Graph-Based Exploration with Learned Utility for Open-World Interactive Object Searchは,部屋,フロンティア,オブジェクトに対して,部屋オブジェクトの囲み込みやオブジェクトオブジェクトの共起といった関係探索ヒューリスティックを用いて,ユーティリティスコアを割り当てることで,3次元シーングラフを直接検索する新しい手法である。
オープンボキャブラリの一般化を犠牲にすることなく,LLMから構造化された関係知識をオンロボット推論のための軽量モデルに抽出するオフラインプロシージャ蒸留フレームワークを提案する。
さらに,対話型オブジェクト検索タスクにおける意味的推論を評価するための,スケーラブルなシンボリック・ベンチマークであるSymSearchを提案する。
シンボリックおよびシミュレーション環境における広範囲な評価により、SCOUTは類似性に基づく手法の埋め込みよりも優れ、計算効率を保ちながらLLMレベルの性能と一致していることが示された。
最後に、実世界の実験は物理的な環境への効果的な移動を示し、リアルなセンシングとナビゲーションの制約の下で、オープンワールドの対話的オブジェクト探索を可能にする。
関連論文リスト
- Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。
2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。
本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:01:31Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。
我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。
この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文 参考訳(メタデータ) (2024-10-09T19:37:01Z) - Go-SLAM: Grounded Object Segmentation and Localization with Gaussian Splatting SLAM [12.934788858420752]
Go-SLAMは動的環境の再構築に3DガウススティングSLAMを利用する新しいフレームワークである。
本システムは,自然言語記述によるオブジェクトの検索を容易にする。
論文 参考訳(メタデータ) (2024-09-25T13:56:08Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - An Object SLAM Framework for Association, Mapping, and High-Level Tasks [12.62957558651032]
本稿では,オブジェクト指向認識とオブジェクト指向ロボットタスクに焦点を当てた包括的オブジェクトSLAMフレームワークを提案する。
提案したオブジェクトSLAMフレームワークを効率よく評価するために,さまざまな公開データセットと実世界の結果が使用されている。
論文 参考訳(メタデータ) (2023-05-12T08:10:14Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Towards Optimal Correlational Object Search [25.355936023640506]
相関オブジェクト探索POMDPは相関情報を用いた探索戦略を作成することができる。
我々は,家庭環境の現実的なシミュレータであるAI2-THORと,広く使用されている物体検出器であるYOLOv5を用いて実験を行った。
論文 参考訳(メタデータ) (2021-10-19T14:03:43Z) - SORNet: Spatial Object-Centric Representations for Sequential
Manipulation [39.88239245446054]
シーケンシャルな操作タスクでは、ロボットが環境の状態を認識し、望ましい目標状態につながる一連のアクションを計画する必要がある。
本研究では,対象対象の標準視に基づくRGB画像からオブジェクト中心表現を抽出するSORNetを提案する。
論文 参考訳(メタデータ) (2021-09-08T19:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。