Fugu-MT 論文翻訳(概要): Reliable Semantic Understanding for Real World Zero-shot Object Goal Navigation

論文の概要: Reliable Semantic Understanding for Real World Zero-shot Object Goal Navigation

arxiv url: http://arxiv.org/abs/2410.21926v1
Date: Tue, 29 Oct 2024 10:37:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.804178
Title: Reliable Semantic Understanding for Real World Zero-shot Object Goal Navigation
Title（参考訳）: 実世界のゼロショット目標ナビゲーションのための信頼性のあるセマンティック理解
Authors: Halil Utku Unlu, Shuaihang Yuan, Congcong Wen, Hao Huang, Anthony Tzes, Yi Fang,
Abstract要約: ゼロショットオブジェクトゴールナビゲーション(ZS-OGN)における意味理解の進化に向けた革新的なアプローチを導入する。本稿では,初期検出のためのGLIPビジョン言語モデルと検証のためのインストラクションBLIPモデルを統合した2成分フレームワークを用いる。シミュレーションと実世界の双方で厳密にテストした結果,ナビゲーション精度と信頼性が著しく向上した。
参考スコア（独自算出の注目度）: 16.558049910496056
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce an innovative approach to advancing semantic understanding in zero-shot object goal navigation (ZS-OGN), enhancing the autonomy of robots in unfamiliar environments. Traditional reliance on labeled data has been a limitation for robotic adaptability, which we address by employing a dual-component framework that integrates a GLIP Vision Language Model for initial detection and an InstructionBLIP model for validation. This combination not only refines object and environmental recognition but also fortifies the semantic interpretation, pivotal for navigational decision-making. Our method, rigorously tested in both simulated and real-world settings, exhibits marked improvements in navigation precision and reliability.
Abstract（参考訳）: ゼロショットオブジェクトゴールナビゲーション(ZS-OGN)における意味理解を進化させる革新的なアプローチを導入し、未知の環境でのロボットの自律性を向上する。従来のラベル付きデータへの依存はロボット適応性の限界であり,初期検出のためのGLIPビジョン言語モデルと検証のためのインストラクションBLIPモデルを統合した2成分フレームワークを用いて対処してきた。この組み合わせは、オブジェクトと環境の認識を洗練させるだけでなく、ナビゲーションの意思決定において重要な意味論的解釈も強化する。シミュレーションと実世界の双方で厳密にテストした結果,ナビゲーション精度と信頼性が著しく向上した。

関連論文リスト

SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-06-04T03:04:54Z)
SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文参考訳（メタデータ） (2025-05-22T15:44:30Z)
Sim2Real Transfer for Vision-Based Grasp Verification [7.9471205712560264]
本稿では,ロボットグリップが物体の把握に成功しているかどうかを判断するために,視力に基づく検証手法を提案する。本手法は,ロボットのグリップを検知し,検出するための,最初のYOLOに基づく物体検出モデルである2段階アーキテクチャを用いている。実世界のデータキャプチャの限界に対処するために,多様な把握シナリオをシミュレートする合成データセットであるHSR-Grasp Synthを導入する。
論文参考訳（メタデータ） (2025-05-05T22:04:12Z)
PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications [0.0]
PhysNav-DGは、古典的なセンサー融合と視覚言語モデルのセマンティックパワーを統合する新しいフレームワークである。我々のデュアルブランチアーキテクチャは、マルチセンサー入力からナビゲーション動作を予測し、同時に詳細なチェーン・オブ・シークレットの説明を生成する。
論文参考訳（メタデータ） (2025-05-03T17:59:26Z)
LEGO-Motion: Learning-Enhanced Grids with Occupancy Instance Modeling for Class-Agnostic Motion Prediction [12.071846486955627]
本稿ではLEGO-Motionという,クラスに依存しない動作予測タスクのための新しい占有状況モデリングフレームワークを提案する。本モデルは,(1)BEVエンコーダ,(2)Interaction-Augmented Instance,(3)インスタンス強化型BEVからなる。提案手法は最先端の性能を達成し,既存手法より優れている。
論文参考訳（メタデータ） (2025-03-10T14:26:21Z)
Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。提案手法は,長期タスクにおける空間的推論と意思決定を促進する。実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文参考訳（メタデータ） (2025-02-20T04:41:40Z)
Integrating Object Detection Modality into Visual Language Model for Enhanced Autonomous Driving Agent [8.212818176634116]
我々は,YOLOSに基づく検出ネットワークをCLIP認識ネットワークと組み合わせることで,Llama-Adapterアーキテクチャを拡張した。本手法では, 総合的な環境認識に欠かせないマルチビュー処理を改善するために, カメラIDセパレータを導入している。
論文参考訳（メタデータ） (2024-11-08T15:50:30Z)
Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文参考訳（メタデータ） (2024-04-10T13:24:27Z)
Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文参考訳（メタデータ） (2024-03-30T10:54:59Z)
NeuPAN: Direct Point Robot Navigation with End-to-End Model-based Learning [67.53972459080437]
本稿では,リアルタイム,高精度,ロボットに依存しない,環境に適応しないロボットナビゲーションソリューションであるNeuPANについて述べる。 NeuPANは密結合の知覚移動フレームワークを活用し、既存のアプローチと比較して2つの重要なイノベーションを持っている。我々は,車載ロボット,車輪脚ロボット,乗用車において,実環境と実環境の両方でNeuPANを評価した。
論文参考訳（メタデータ） (2024-03-11T15:44:38Z)
NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文参考訳（メタデータ） (2023-10-11T21:07:14Z)
CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-06-17T11:44:04Z)
Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文参考訳（メタデータ） (2023-03-06T20:19:19Z)
Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文参考訳（メタデータ） (2022-03-08T11:01:24Z)
Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文参考訳（メタデータ） (2020-07-01T17:52:32Z)
Improving Robot Dual-System Motor Learning with Intrinsically Motivated Meta-Control and Latent-Space Experience Imagination [17.356402088852423]
本稿では,メタコントローラがモデルベースとモデルフリーの判断をオンラインに調停する,新しいデュアルシステムモーター学習手法を提案する。シミュレーションと実世界における視覚に基づくロボットグリップ学習におけるベースラインと最先端の手法に対する我々のアプローチを評価する。
論文参考訳（メタデータ） (2020-04-19T12:14:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。