論文の概要: Beyond Waypoints: Dual-Heatmap Grounding for Cross-Embodiment Semantic Navigation
- arxiv url: http://arxiv.org/abs/2605.19420v1
- Date: Tue, 19 May 2026 06:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.163281
- Title: Beyond Waypoints: Dual-Heatmap Grounding for Cross-Embodiment Semantic Navigation
- Title(参考訳): Beyond Waypoints:Dual-Heatmap Grounding for Cross-Embodiment Semantic Navigation
- Authors: Kaijie Yun, Yue Chen,
- Abstract要約: 本研究では,FOV内セマンティックナビゲーションの実践的な設定に焦点を当てる。
本稿では,Dual-Heatmap表現に有利な単一点回帰を放棄する統合ビジョン・ランゲージフレームワークを提案する。
本フレームワークは,8Bベースライン間の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 13.081539889943906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grounding open-ended semantic instructions into physically executable local goals is a fundamental challenge in human-robot interaction. While existing navigation frameworks often regress deterministic waypoints, this rigid formulation collapses spatial uncertainty and frequently targets non-traversable object centers, leading to severe execution failures. In this work, we focus on the practical setting of in-FOV semantic navigation, where a robot receives concise, interleaved multimodal (text and image) prompts. To bridge the gap between abstract semantic intent and physical reachability, we propose a unified Vision-Language framework that abandons single-point regression in favor of a Dual-Heatmap representation. Our framework predicts a navigation affordance heatmap that captures continuous reachable regions, coupled with a facing heatmap for orientation constraints. These dense outputs inherently function as a differentiable semantic potential field, integrating seamlessly with downstream local planners. To support this paradigm, we build a fully automated, foundation-model-assisted synthetic data pipeline and establish a comprehensive simulation benchmark. Extensive experiments demonstrate that our framework achieves state-of-the-art performance among comparable 8B baselines. Crucially, a feature-fusion study and simulation studies across diverse robot embodiments (Jetbot, H1, Aliengo) reveal that explicit heatmap prediction drastically improves the Affordance Rate (AR). By placing targets reliably in executable free space, our framework effectively mitigates the brittleness of point regression, offering a transferable path toward safe cross-embodiment semantic navigation.
- Abstract(参考訳): オープンエンドのセマンティック命令を物理的に実行可能なローカルゴールにグラウンドすることは、人間とロボットの相互作用における根本的な課題である。
既存のナビゲーションフレームワークは決定論的な道程を遅らせることが多いが、この厳密な定式化は空間的不確実性を崩壊させ、しばしば非トラバース可能なオブジェクトセンターを標的にし、厳しい実行障害を引き起こす。
本研究では,ロボットが簡潔かつインターリーブなマルチモーダル(テキストと画像)プロンプトを受信する,FOV内セマンティックナビゲーションの実践的な設定に焦点を当てる。
抽象的な意味的意図と物理的な到達可能性のギャップを埋めるために、デュアル・ヒートマップ表現に有利な単一点回帰を放棄する統合ビジョン・ランゲージフレームワークを提案する。
本フレームワークは、連続的な到達可能な領域を捕捉するナビゲーション・アベイランス・ヒートマップと、向き制約に対する対向したヒートマップを同時に予測する。
これらの高密度出力は本質的に微分可能な意味ポテンシャル場として機能し、下流の局所プランナーとシームレスに統合される。
このパラダイムをサポートするために、我々は、完全に自動化された基礎モデル支援合成データパイプラインを構築し、包括的なシミュレーションベンチマークを確立する。
大規模な実験により、我々のフレームワークは、同等の8Bベースライン間で最先端のパフォーマンスを達成することを示した。
重要なことは、さまざまなロボット体(Jetbot、H1、Aliengo)にまたがる機能融合研究とシミュレーション研究により、明示的な熱マップ予測がAffordance Rate(AR)を大幅に改善することを明らかにした。
対象を確実に実行可能空間に配置することにより、我々のフレームワークは効果的に点回帰の脆さを軽減し、安全なクロス・エボディメント・セマンティック・ナビゲーションへ移行可能な経路を提供する。
関連論文リスト
- InsTraj: Instructing Diffusion Models with Travel Intentions to Generate Real-world Trajectories [58.29205608173041]
InsTrajは、拡散モデルに自然言語記述から直接高忠実な軌道を生成するよう指示する新しいフレームワークである。
InsTrajは、入力命令に対して現実的で多様で意味論的に忠実な軌跡を生成する際に、最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-04-05T12:56:55Z) - IntentReact: Guiding Reactive Object-Centric Navigation via Topological Intent [38.14789750420476]
目的条件付きオブジェクト中心ナビゲーションフレームワークであるIntentReactを提案する。
従来のオブジェクト中心ナビゲーション手法と比較して,ナビゲーションの成功率と実行品質が向上した。
論文 参考訳(メタデータ) (2026-03-26T12:32:11Z) - Hierarchical Trajectory Planning of Floating-Base Multi-Link Robot for Maneuvering in Confined Environments [9.325443556436436]
浮動小数点浮動小数点浮動小数点浮動小数点浮動小数点浮動小数点浮動小数点浮動小数点浮動小数点浮動小数点浮動小数点浮動小数点浮動小数点浮動小数点浮動小数点浮動小数点浮動小数点浮動小数点浮動
本研究は,グローバルガイダンスと設定対応ローカル最適化を統合した階層的軌道計画フレームワークを導入する。
我々の知る限りでは、これは実際のロボットで実証された浮動小数点移動型マルチリンクロボットのための最初の計画フレームワークである。
論文 参考訳(メタデータ) (2026-02-25T22:49:54Z) - AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [62.47761809929869]
視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。
無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。
本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
論文 参考訳(メタデータ) (2026-02-10T11:08:07Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - MetricNet: Recovering Metric Scale in Generative Navigation Policies [51.90872764552077]
MetricNetは、ウェイポイント間の距離を予測するジェネレーティブナビゲーションのための効果的なアドオンである。
MetricNetスケールのウェイポイントの実行はナビゲーションと探索の両方のパフォーマンスを大幅に改善することを示す。
また、MetricNetをナビゲーションポリシーに統合し、目標に向かって移動しながら障害物からロボットを誘導するMetricNavを提案する。
論文 参考訳(メタデータ) (2025-09-17T13:37:13Z) - GoViG: Goal-Conditioned Visual Navigation Instruction Generation [69.79110149746506]
本稿では,Goal-Conditioned Visual Navigation Instruction Generation (GoViG)を紹介する。
GoViGは生のエゴセントリックな視覚データのみを活用し、目に見えない非構造環境への適応性を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-13T07:05:17Z) - IN-Sight: Interactive Navigation through Sight [20.184155117341497]
IN-Sightは自己監督型パスプランニングの新しいアプローチである。
可逆性のスコアを計算し、セマンティックマップに組み込む。
障害物を正確に回避するために、IN-Sightはローカルプランナーを使用している。
論文 参考訳(メタデータ) (2024-08-01T07:27:54Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。