論文の概要: BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion
- arxiv url: http://arxiv.org/abs/2603.09961v1
- Date: Tue, 10 Mar 2026 17:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.520076
- Title: BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion
- Title(参考訳): BEACON:オクルージョン下の言語依存ナビゲーション予測
- Authors: Xinyu Gao, Gang Chen, Javier Alonso-Mora,
- Abstract要約: 言語条件付きローカルナビゲーションでは、ロボットが現在の観測から近くの移動可能な目標位置を推測する必要がある。
本研究では,エゴ中心のBird's-Eye Viewヒートマップを局所境界領域上で予測するBEACONを提案する。
提案手法は,最新画像空間ベースライン上での測地線閾値の平均精度を22.74ポイント向上する。
- 参考スコア(独自算出の注目度): 29.54780231915944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-conditioned local navigation requires a robot to infer a nearby traversable target location from its current observation and an open-vocabulary, relational instruction. Existing vision-language spatial grounding methods usually rely on vision-language models (VLMs) to reason in image space, producing 2D predictions tied to visible pixels. As a result, they struggle to infer target locations in occluded regions, typically caused by furniture or moving humans. To address this issue, we propose BEACON, which predicts an ego-centric Bird's-Eye View (BEV) affordance heatmap over a bounded local region including occluded areas. Given an instruction and surround-view RGB-D observations from four directions around the robot, BEACON predicts the BEV heatmap by injecting spatial cues into a VLM and fusing the VLM's output with depth-derived BEV features. Using an occlusion-aware dataset built in the Habitat simulator, we conduct detailed experimental analysis to validate both our BEV space formulation and the design choices of each module. Our method improves the accuracy averaged across geodesic thresholds by 22.74 percentage points over the state-of-the-art image-space baseline on the validation subset with occluded target locations. Our project page is: https://xin-yu-gao.github.io/beacon.
- Abstract(参考訳): 言語条件付きローカルナビゲーションでは、ロボットが現在の観測から近くの移動可能な目標位置を推測し、オープン語彙でリレーショナルな指示を行う必要がある。
既存の視覚言語空間接地法は通常、画像空間を推論するために視覚言語モデル(VLM)に依存し、可視画素に結びついた2次元の予測を生成する。
結果として、彼らは、一般的に家具や移動する人間によって引き起こされる、閉鎖された地域の標的場所を推測するのに苦労した。
この問題に対処するためにBEACONを提案する。これはEgo中心のBird's-Eye View(BEV)のアベイランス・ヒートマップを、閉鎖領域を含む有界な地域にわたって予測するものである。
BEACONは、ロボット周囲の4方向からの指示およびサラウンドビューRGB-D観測を行い、空間キューをVLMに注入し、VLMの出力を深度由来のBEV特徴と融合させることで、BEVヒートマップを予測する。
本研究では,ハビタットシミュレータ上に構築されたオクルージョン認識データセットを用いて,BEV空間の定式化と各モジュールの設計選択の両方を検証するための詳細な実験を行った。
提案手法は,対象位置を隠蔽した検証サブセット上の最先端画像空間ベースラインに対して,測地線しきい値の平均精度を22.74ポイント向上する。
私たちのプロジェクトページは以下のとおりです。
関連論文リスト
- Unified Human Localization and Trajectory Prediction with Monocular Vision [64.19384064365431]
MonoTransmotionはトランスフォーマーベースのフレームワークで、モノクロカメラのみを使用して、ローカライゼーションと予測タスクを共同で解決する。
両タスクを統合フレームワークで共同でトレーニングすることにより,ノイズの多い入力による実環境シナリオにおいて,我々の手法がより堅牢であることを示す。
論文 参考訳(メタデータ) (2025-03-05T14:18:39Z) - VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - BEVLoc: Cross-View Localization and Matching via Birds-Eye-View Synthesis [22.69620338108094]
オフロード環境において,鳥眼ビュー (BEV) のシーン表現を合成し,航空地図とのマッチングとローカライズを行うための新しい枠組みを提案する。
我々は,合成されたBEVと航空地図の類似表現を学習するために,ドメイン固有の負のマイニングによる対照的な学習を活用してネットワークを訓練する。
本研究は,極難林環境における有望な初期成果を示すものである。
論文 参考訳(メタデータ) (2024-10-08T22:45:53Z) - Improving Bird's Eye View Semantic Segmentation by Task Decomposition [42.57351039508863]
元のBEVセグメンテーションタスクを,BEVマップ再構成とRGB-BEV機能アライメントという2つの段階に分割する。
我々のアプローチは、知覚と生成を異なるステップに組み合わせることの複雑さを単純化し、複雑で挑戦的なシーンを効果的に扱うためのモデルを構築します。
論文 参考訳(メタデータ) (2024-04-02T13:19:45Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - Bird's-Eye-View Scene Graph for Vision-Language Navigation [85.72725920024578]
視覚言語ナビゲーション(VLN)は、人間の指示に従って3D環境をナビゲートするエージェントである。
室内環境のシーンレイアウトと幾何学的手がかりを符号化するために,多段階のBEV表現を利用するBEVシーングラフ(BSG)を提案する。
BSGに基づいて、エージェントは、ローカルなBEVグリッドレベル決定スコアとグローバルなグラフレベル決定スコアを予測し、パノラマビューのサブビュー選択スコアと組み合わせる。
論文 参考訳(メタデータ) (2023-08-09T07:48:20Z) - iSDF: Real-Time Neural Signed Distance Fields for Robot Perception [64.80458128766254]
iSDFは実時間符号付き距離場再構成のための連続学習システムである。
より正確な再構築と、衝突コストと勾配のより良い近似を生成する。
論文 参考訳(メタデータ) (2022-04-05T15:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。