論文の概要: DIV-Nav: Open-Vocabulary Spatial Relationships for Multi-Object Navigation
- arxiv url: http://arxiv.org/abs/2510.16518v1
- Date: Sat, 18 Oct 2025 14:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.023016
- Title: DIV-Nav: Open-Vocabulary Spatial Relationships for Multi-Object Navigation
- Title(参考訳): DIV-Nav:マルチオブジェクトナビゲーションのためのオープン語彙空間関係
- Authors: Jesús Ortega-Peimbert, Finn Lukas Busch, Timon Homberger, Quantao Yang, Olov Andersson,
- Abstract要約: DIV-Navは、空間的関係を持つ複雑な自由テキストクエリを効率的に処理するリアルタイムナビゲーションシステムである。
我々は,Boston Dynamics Spotロボット上でのMultiONベンチマークと実世界展開に関する広範な実験を通じて,システムを検証する。
- 参考スコア(独自算出の注目度): 2.610405478993863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in open-vocabulary semantic mapping and object navigation have enabled robots to perform an informed search of their environment for an arbitrary object. However, such zero-shot object navigation is typically designed for simple queries with an object name like "television" or "blue rug". Here, we consider more complex free-text queries with spatial relationships, such as "find the remote on the table" while still leveraging robustness of a semantic map. We present DIV-Nav, a real-time navigation system that efficiently addresses this problem through a series of relaxations: i) Decomposing natural language instructions with complex spatial constraints into simpler object-level queries on a semantic map, ii) computing the Intersection of individual semantic belief maps to identify regions where all objects co-exist, and iii) Validating the discovered objects against the original, complex spatial constrains via a LVLM. We further investigate how to adapt the frontier exploration objectives of online semantic mapping to such spatial search queries to more effectively guide the search process. We validate our system through extensive experiments on the MultiON benchmark and real-world deployment on a Boston Dynamics Spot robot using a Jetson Orin AGX. More details and videos are available at https://anonsub42.github.io/reponame/
- Abstract(参考訳): オープン語彙のセマンティックマッピングとオブジェクトナビゲーションの進歩により、ロボットは任意のオブジェクトに対する環境の情報検索を実行できるようになった。
しかし、そのようなゼロショットオブジェクトナビゲーションは通常、"television"や"blue rug"のようなオブジェクト名を持つ単純なクエリ用に設計されている。
ここでは「テーブル上にリモートを固定する」など、空間的関係を持つより複雑な自由テキストクエリについて考察し、セマンティックマップの堅牢性を活用しながら検討する。
DIV-Navはリアルタイムナビゲーションシステムで、一連の緩和によってこの問題に効率的に対処する。
一 複雑な空間制約のある自然言語命令を意味地図上の単純なオブジェクトレベルのクエリに分解すること。
二 すべての対象が共存する地域を特定するための個別意味信念図の節を計算し、
三 発見物を、LVLMを介して、元の複雑な空間的制約に対して検証すること。
さらに,このような空間探索クエリにオンラインセマンティックマッピングのフロンティア探索の目的を適応させ,探索プロセスをより効果的に導く方法について検討する。
我々は,Jetson Orin AGXを用いたBoston Dynamics Spotロボット上で,MultiONベンチマークと実世界展開に関する広範な実験を通じてシステムを検証する。
詳細とビデオはhttps://anonsub42.github.io/reponame/で確認できる。
関連論文リスト
- RAVEN: Resilient Aerial Navigation via Open-Set Semantic Memory and Behavior Adaptation [20.730528223747967]
RAVENは、非構造化屋外環境での空中セマンティックナビゲーションのための3Dメモリベースの行動ツリーフレームワークである。
空間的に一貫したセマンティックなボクセル線マップを永続記憶として使用し、長期計画を可能にし、純粋に反応性のある振る舞いを避ける。
RAVENは、シミュレーションのベースラインを85.25%上回り、屋外フィールドテストにおける空中ロボットへの展開を通じて実世界の適用性を実証している。
論文 参考訳(メタデータ) (2025-09-28T01:43:25Z) - TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - One Map to Find Them All: Real-time Open-Vocabulary Mapping for Zero-shot Multi-Object Navigation [2.022249798290507]
ゼロショットマルチオブジェクトナビゲーションのための新しいベンチマークを導入する。
リアルタイムオブジェクト検索に適した,再利用可能なオープン語彙機能マップを構築した。
単一目的と多目的のナビゲーションタスクにおいて,既存の最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-18T07:44:08Z) - IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation [10.006058028927907]
VLN(Vision-and-Language Navigation)は、人間の自然言語で写実的な環境を移動させるロボットを必要とする課題である。
近年の研究では,環境の意味的な空間地図表現を構築することで,この課題に対処することを目指している。
本稿では,インスタンスレベルおよび属性レベルのセマンティックマッピングをロボットに提供するために,インスタンス対応のビジュアル言語マップ(IVLMap)を提案する。
論文 参考訳(メタデータ) (2024-03-28T11:52:42Z) - TAS: A Transit-Aware Strategy for Embodied Navigation with Non-Stationary Targets [55.09248760290918]
非定常目標を持つ動的シナリオにおけるナビゲーションのための新しいアルゴリズムを提案する。
我々の新しいTAS(Transit-Aware Strategy)は、具体化されたナビゲーションポリシーをオブジェクトパス情報で強化する。
TASは、ターゲットルートとルートを同期させるエージェントを報酬することで、非定常環境での性能を改善する。
論文 参考訳(メタデータ) (2024-03-14T22:33:22Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Visual Language Maps for Robot Navigation [30.33041779258644]
ナビゲーションエージェントの視覚的観察に対する接地言語は、インターネットスケールのデータに基づいて事前訓練された市販の視覚言語モデルを用いて行うことができる。
実世界の3次元再構成により,事前学習した視覚言語特徴を直接融合する空間地図表現 VLMaps を提案する。
論文 参考訳(メタデータ) (2022-10-11T18:13:20Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。