論文の概要: Reliable Semantic Understanding for Real World Zero-shot Object Goal Navigation
- arxiv url: http://arxiv.org/abs/2410.21926v1
- Date: Tue, 29 Oct 2024 10:37:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:39:43.550698
- Title: Reliable Semantic Understanding for Real World Zero-shot Object Goal Navigation
- Title(参考訳): 実世界のゼロショット目標ナビゲーションのための信頼性のあるセマンティック理解
- Authors: Halil Utku Unlu, Shuaihang Yuan, Congcong Wen, Hao Huang, Anthony Tzes, Yi Fang,
- Abstract要約: ゼロショットオブジェクトゴールナビゲーション(ZS-OGN)における意味理解の進化に向けた革新的なアプローチを導入する。
本稿では,初期検出のためのGLIPビジョン言語モデルと検証のためのインストラクションBLIPモデルを統合した2成分フレームワークを用いる。
シミュレーションと実世界の双方で厳密にテストした結果,ナビゲーション精度と信頼性が著しく向上した。
- 参考スコア(独自算出の注目度): 16.558049910496056
- License:
- Abstract: We introduce an innovative approach to advancing semantic understanding in zero-shot object goal navigation (ZS-OGN), enhancing the autonomy of robots in unfamiliar environments. Traditional reliance on labeled data has been a limitation for robotic adaptability, which we address by employing a dual-component framework that integrates a GLIP Vision Language Model for initial detection and an InstructionBLIP model for validation. This combination not only refines object and environmental recognition but also fortifies the semantic interpretation, pivotal for navigational decision-making. Our method, rigorously tested in both simulated and real-world settings, exhibits marked improvements in navigation precision and reliability.
- Abstract(参考訳): ゼロショットオブジェクトゴールナビゲーション(ZS-OGN)における意味理解を進化させる革新的なアプローチを導入し、未知の環境でのロボットの自律性を向上する。
従来のラベル付きデータへの依存はロボット適応性の限界であり,初期検出のためのGLIPビジョン言語モデルと検証のためのインストラクションBLIPモデルを統合した2成分フレームワークを用いて対処してきた。
この組み合わせは、オブジェクトと環境の認識を洗練させるだけでなく、ナビゲーションの意思決定において重要な意味論的解釈も強化する。
シミュレーションと実世界の双方で厳密にテストした結果,ナビゲーション精度と信頼性が著しく向上した。
関連論文リスト
- Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。
提案手法は,長期タスクにおける空間的推論と意思決定を促進する。
実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-02-20T04:41:40Z) - CogNav: Cognitive Process Modeling for Object Goal Navigation with LLMs [33.123447047397484]
オブジェクトゴールナビゲーション(Object goal navigation、ObjectNav)は、エージェントが見えない環境でターゲットオブジェクトを見つける必要があるAIの基本的なタスクである。
我々は,この認知過程を大規模言語モデルの助けを借りてモデル化しようとするCagNavを紹介する。
オープンボキャブラリとゼロショット設定では、HM3DベンチマークのSOTAを69.3%から87.2%に向上させる。
論文 参考訳(メタデータ) (2024-12-11T09:50:35Z) - Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input [54.81155589931697]
我々は,ナビゲーション中の動的エージェントと人間との相互作用を考慮したCoIN(Collaborative Instance Navigation)を提案する。
CoINに対処するために,新しいエージェント・ユーザ・インタラクションとUncerTainty Awareness (AIUTA)を提案する。
AIUTAは、最先端のメソッドに対するナビゲーションにおける競合的なパフォーマンスを実現し、ユーザの入力を処理する際の柔軟性を示している。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - Integrating Object Detection Modality into Visual Language Model for Enhanced Autonomous Driving Agent [8.212818176634116]
我々は,YOLOSに基づく検出ネットワークをCLIP認識ネットワークと組み合わせることで,Llama-Adapterアーキテクチャを拡張した。
本手法では, 総合的な環境認識に欠かせないマルチビュー処理を改善するために, カメラIDセパレータを導入している。
論文 参考訳(メタデータ) (2024-11-08T15:50:30Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。
我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。