論文の概要: Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2503.09820v1
- Date: Wed, 12 Mar 2025 20:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:42.421579
- Title: Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments
- Title(参考訳): Vi-LAD:動的環境における社会認識型ロボットナビゲーションのための視覚言語注意蒸留
- Authors: Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh Manocha,
- Abstract要約: 社会に適合したナビゲーション知識を蒸留する新しいアプローチであるVi-LAD(Vision-Language Attention Distillation)を紹介する。
Vi-LADは、事前学習された視覚行動モデルから抽出された中間注意マップを用いたトランスフォーマーベースモデルを微調整する。
我々は,ハスキー車輪付きロボットによる実世界実験を通じて,我々のアプローチを検証するとともに,最先端のナビゲーション手法に対する大幅な改善を実証した。
- 参考スコア(独自算出の注目度): 41.75629159747654
- License:
- Abstract: We introduce Vision-Language Attention Distillation (Vi-LAD), a novel approach for distilling socially compliant navigation knowledge from a large Vision-Language Model (VLM) into a lightweight transformer model for real-time robotic navigation. Unlike traditional methods that rely on expert demonstrations or human-annotated datasets, Vi-LAD performs knowledge distillation and fine-tuning at the intermediate layer representation level (i.e., attention maps) by leveraging the backbone of a pre-trained vision-action model. These attention maps highlight key navigational regions in a given scene, which serve as implicit guidance for socially aware motion planning. Vi-LAD fine-tunes a transformer-based model using intermediate attention maps extracted from the pre-trained vision-action model, combined with attention-like semantic maps constructed from a large VLM. To achieve this, we introduce a novel attention-level distillation loss that fuses knowledge from both sources, generating augmented attention maps with enhanced social awareness. These refined attention maps are then utilized as a traversability costmap within a socially aware model predictive controller (MPC) for navigation. We validate our approach through real-world experiments on a Husky wheeled robot, demonstrating significant improvements over state-of-the-art (SOTA) navigation methods. Our results show up to 14.2% - 50% improvement in success rate, which highlights the effectiveness of Vi-LAD in enabling socially compliant and efficient robot navigation.
- Abstract(参考訳): 本稿では,VLM(Vision-Language Attention Distillation)からリアルタイムナビゲーションのための軽量トランスフォーマーモデルに社会に適合したナビゲーション知識を蒸留するための新しいアプローチであるVi-LADを紹介する。
専門家によるデモンストレーションや人間による注釈付きデータセットに依存する従来の方法とは異なり、Vi-LADは、事前訓練された視覚アクションモデルのバックボーンを活用することで、中間層表現レベル(注意マップ)で知識蒸留と微調整を行う。
これらの注意マップは、社会的に意識された行動計画のための暗黙のガイダンスとして機能する、あるシーンにおける重要なナビゲーション領域をハイライトする。
Vi-LADは、事前学習された視覚行動モデルから抽出された中間注目マップと、大きなVLMから構築された注目に似たセマンティックマップを用いて、トランスフォーマーベースモデルを微調整する。
そこで本研究では,両者の知識を融合させる新たな注意レベル蒸留損失を導入し,社会意識を高めた注意マップを作成する。
これらの改良されたアテンションマップは、ナビゲーションのための社会的に認識されたモデル予測コントローラ(MPC)内のトラバーサビリティコストマップとして利用される。
我々は,Huskyの車輪付きロボットによる実世界実験によるアプローチの有効性を検証し,最新技術(SOTA)ナビゲーション法を大幅に改善した。
その結果,Vi-LADが社会的に適合し,効率的なロボットナビゲーションを実現する上での有効性を強調した14.2%から50%の成果が得られた。
関連論文リスト
- NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - Mobile Robot Navigation Using Hand-Drawn Maps: A Vision Language Model Approach [5.009635912655658]
本稿では,手書き地図ナビゲーション(HAM-Nav)アーキテクチャを提案する。
HAM-Navは、トポロジカルマップに基づく位置推定のためのユニークな選択型視覚アソシエーション・プロンプティング・アプローチを統合する。
車輪付きロボットと脚付きロボットを用いてシミュレーション環境で実験を行った。
論文 参考訳(メタデータ) (2025-01-31T19:03:33Z) - OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training [8.479135285935113]
人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。
ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存しており、これは有能な物体を優先する。
視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:08Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Waypoint Models for Instruction-guided Navigation in Continuous
Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。
プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。
我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文 参考訳(メタデータ) (2021-10-05T17:55:49Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。