論文の概要: ObjectReact: Learning Object-Relative Control for Visual Navigation
- arxiv url: http://arxiv.org/abs/2509.09594v1
- Date: Thu, 11 Sep 2025 16:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.470794
- Title: ObjectReact: Learning Object-Relative Control for Visual Navigation
- Title(参考訳): ObjectReact:ビジュアルナビゲーションのためのオブジェクト指向制御を学習する
- Authors: Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid,
- Abstract要約: 本稿では,いくつかの望ましい特徴を示す「対象相対性」制御の学習パラダイムを提案する。
本稿では「相対的」な3次元シーングラフの形でのトポロジカルマップ表現を提案する。
センサ高さの異なる画像に対して,物体相対制御を学習することの利点を実証する。
- 参考スコア(独自算出の注目度): 10.645109937081681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual navigation using only a single camera and a topological map has recently become an appealing alternative to methods that require additional sensors and 3D maps. This is typically achieved through an "image-relative" approach to estimating control from a given pair of current observation and subgoal image. However, image-level representations of the world have limitations because images are strictly tied to the agent's pose and embodiment. In contrast, objects, being a property of the map, offer an embodiment- and trajectory-invariant world representation. In this work, we present a new paradigm of learning "object-relative" control that exhibits several desirable characteristics: a) new routes can be traversed without strictly requiring to imitate prior experience, b) the control prediction problem can be decoupled from solving the image matching problem, and c) high invariance can be achieved in cross-embodiment deployment for variations across both training-testing and mapping-execution settings. We propose a topometric map representation in the form of a "relative" 3D scene graph, which is used to obtain more informative object-level global path planning costs. We train a local controller, dubbed "ObjectReact", conditioned directly on a high-level "WayObject Costmap" representation that eliminates the need for an explicit RGB input. We demonstrate the advantages of learning object-relative control over its image-relative counterpart across sensor height variations and multiple navigation tasks that challenge the underlying spatial understanding capability, e.g., navigating a map trajectory in the reverse direction. We further show that our sim-only policy is able to generalize well to real-world indoor environments. Code and supplementary material are accessible via project page: https://object-react.github.io/
- Abstract(参考訳): 単一のカメラとトポロジカルマップのみを用いた視覚ナビゲーションは、最近、追加のセンサーと3Dマップを必要とする方法の代替として魅力的なものになった。
これは典型的には、与えられた一対の現在の観測とサブゴール画像から制御を推定する「イメージ相対的」アプローチによって達成される。
しかし、画像はエージェントのポーズや体格に厳密に結びついているので、世界の画像レベルの表現には限界がある。
対照的に、対象は写像の性質であり、具体的および軌跡的不変世界表現を提供する。
本研究では,いくつかの望ましい特徴を示す「対象相対的」制御の学習パラダイムを提案する。
a) 事前の経験を厳密に模倣することなく,新たなルートを横断することができる。
b) 制御予測問題は、画像マッチング問題の解決から切り離すことができ、
c) トレーニング・テストとマッピング・エグゼクティブ設定の両方のバリエーションに対して、クロス・エボデーションデプロイメントにおいて高い不変性を実現することができる。
本研究では,より情報に富んだオブジェクトレベルのグローバルパス計画コストを得るために使用される「相対的」3次元シーングラフの形で,トポロジカルマップ表現を提案する。
我々は"ObjectReact"と呼ばれるローカルコントローラをトレーニングし、高レベルの"WayObject Costmap"表現に直接条件付けすることで、明示的なRGB入力の必要性を排除します。
センサ高さの変動や,空間理解能力に挑戦する複数のナビゲーションタスク,例えば,逆方向の地図軌道をナビゲートする,画像相対制御の利点を実証する。
さらに、我々のsim-onlyポリシーは現実世界の屋内環境によく適応できることを示す。
コードと補足資料はプロジェクトのページからアクセスできる。
関連論文リスト
- Compass Control: Multi Object Orientation Control for Text-to-Image Generation [24.4172525865806]
テキストと画像の拡散モデルを制御する既存のアプローチは、強力ではあるが、明示的な3Dオブジェクト中心制御を許さない。
テキスト・画像拡散モデルにおける多目的方向制御の問題に対処する。
これにより、各オブジェクトに対して正確な向き制御を備えた多様なマルチオブジェクトシーンを生成することができる。
論文 参考訳(メタデータ) (2025-04-09T10:15:15Z) - GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
視覚ナビゲーションのためのガウススティング(GaussNav)であるIINの新しいフレームワークを提案し、3次元ガウススティング(DGS)に基づく新しい地図表現を構築した。
当社のGaussNavフレームワークは,Habitat-Matterport 3D(HM3D)データセットにおいて,SPL(Path Length)によるSuccessの重み付けを0.347から0.578に増加させ,大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z) - Instance-aware Exploration-Verification-Exploitation for Instance ImageGoal Navigation [88.84058353659107]
インスタンスイメージゴールナビゲーション(IIN)は、探索されていない環境でゴールイメージによって表現された指定されたオブジェクトにナビゲートすることを目的としている。
本稿では、インスタンスレベルの画像目標ナビゲーションのための新しいモジュール型ナビゲーションフレームワーク、Exploration-Verification-Exploitation (IEVE)を提案する。
我々の手法は従来の最先端の手法を超越し、古典的セグメンテーションモデル(0.684対0.561成功)またはロバストモデル(0.702対0.561成功)を用いる。
論文 参考訳(メタデータ) (2024-02-25T07:59:10Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - DECA: Deep viewpoint-Equivariant human pose estimation using Capsule
Autoencoders [3.2826250607043796]
トレーニング時に見つからない視点を扱う場合、現在の3Dヒューマンポース推定法は失敗する傾向にあることを示す。
そこで本研究では,高速変動ベイズカプセルルーティングを用いたカプセルオートエンコーダネットワークDECAを提案する。
実験による検証では,視界・視界・視界・視界・視界・視界の両面から,奥行き画像の他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-19T08:46:15Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Memory-Augmented Reinforcement Learning for Image-Goal Navigation [67.3963444878746]
本論文では,クロスエピソードメモリを活用したナビゲーション学習法を提案する。
オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。
この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。
論文 参考訳(メタデータ) (2021-01-13T16:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。