論文の概要: Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation Using Vision Language Models
- arxiv url: http://arxiv.org/abs/2310.07937v3
- Date: Tue, 06 May 2025 14:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:10.844894
- Title: Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation Using Vision Language Models
- Title(参考訳): Co-NavGPT:視覚言語モデルを用いた複数ロボット協調視覚セマンティックナビゲーション
- Authors: Bangguo Yu, Qihao Yuan, Kailai Li, Hamidreza Kasaei, Ming Cao,
- Abstract要約: Co-NavGPTは、ビジョン言語モデル(VLM)をグローバルプランナーとして統合する新しいフレームワークである。
Co-NavGPTは、多様な視点を持つ複数のロボットのサブマップを統一されたグローバルマップに集約する。
VLMはこの情報を使って、ロボット全体のフロンティアを割り当て、協調的で効率的な探索を容易にする。
- 参考スコア(独自算出の注目度): 8.668211481067457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual target navigation is a critical capability for autonomous robots operating in unknown environments, particularly in human-robot interaction scenarios. While classical and learning-based methods have shown promise, most existing approaches lack common-sense reasoning and are typically designed for single-robot settings, leading to reduced efficiency and robustness in complex environments. To address these limitations, we introduce Co-NavGPT, a novel framework that integrates a Vision Language Model (VLM) as a global planner to enable common-sense multi-robot visual target navigation. Co-NavGPT aggregates sub-maps from multiple robots with diverse viewpoints into a unified global map, encoding robot states and frontier regions. The VLM uses this information to assign frontiers across the robots, facilitating coordinated and efficient exploration. Experiments on the Habitat-Matterport 3D (HM3D) demonstrate that Co-NavGPT outperforms existing baselines in terms of success rate and navigation efficiency, without requiring task-specific training. Ablation studies further confirm the importance of semantic priors from the VLM. We also validate the framework in real-world scenarios using quadrupedal robots. Supplementary video and code are available at: https://sites.google.com/view/co-navgpt2.
- Abstract(参考訳): 視覚的ターゲットナビゲーションは、未知の環境、特に人間とロボットの相互作用シナリオで動作する自律ロボットにとって重要な機能である。
古典的および学習的手法は将来性を示しているが、既存のアプローチの多くは常識的推論に欠けており、通常は単一ロボットの設定用に設計されており、複雑な環境において効率と堅牢性が低下する。
このような制約に対処するため,コナブGPTはビジョン言語モデル(VLM)をグローバルプランナとして統合し,汎用のマルチロボット視覚目標ナビゲーションを実現する新しいフレームワークである。
Co-NavGPTは、多様な視点を持つ複数のロボットのサブマップを統一されたグローバルマップに集約し、ロボットの状態とフロンティア領域を符号化する。
VLMはこの情報を使って、ロボット全体のフロンティアを割り当て、協調的で効率的な探索を容易にする。
Habitat-Matterport 3D(HM3D)の実験では、Co-NavGPTはタスク固有のトレーニングを必要とせず、成功率とナビゲーション効率で既存のベースラインを上回っている。
アブレーション研究は、VLMからのセマンティック先行の重要性をさらに裏付ける。
また,四足歩行ロボットを用いた実環境シナリオにおけるフレームワークの検証を行った。
追加のビデオとコードは、https://sites.google.com/view/co-navgpt2.comで公開されている。
関連論文リスト
- LPAC: Learnable Perception-Action-Communication Loops with Applications
to Coverage Control [80.86089324742024]
本稿では,その問題に対する学習可能なパーセプション・アクション・コミュニケーション(LPAC)アーキテクチャを提案する。
CNNは局所認識を処理する。グラフニューラルネットワーク(GNN)はロボットのコミュニケーションを促進する。
評価の結果,LPACモデルは標準分散型および集中型カバレッジ制御アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-01-10T00:08:00Z) - From Simulations to Reality: Enhancing Multi-Robot Exploration for Urban
Search and Rescue [46.377510400989536]
本研究では,コミュニケーションが限られ,位置情報がない未知の環境での効率的なマルチロボット探索のための新しいハイブリッドアルゴリズムを提案する。
連続した目標情報なしでシナリオに合うように、ローカルなベストとグローバルなベストポジションを再定義する。
提示された研究は、限られた情報と通信能力を持つシナリオにおけるマルチロボット探索の強化を約束している。
論文 参考訳(メタデータ) (2023-11-28T17:05:25Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。
SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - Target Search and Navigation in Heterogeneous Robot Systems with Deep
Reinforcement Learning [3.3167319223959373]
未知の環境下での探索・救助ミッションのためのUAVとUGVからなる異種ロボットシステムを設計する。
このシステムは、深い強化学習アルゴリズムによって学習されたポリシーを用いて、迷路のような鉱山環境でターゲットを探索し、それらをナビゲートすることができる。
論文 参考訳(メタデータ) (2023-08-01T07:09:14Z) - Learning Hierarchical Interactive Multi-Object Search for Mobile
Manipulation [10.21450780640562]
本稿では,ロボットが扉を開けて部屋をナビゲートし,キャビネットや引き出しの中を探索し,対象物を見つける,インタラクティブな多目的探索タスクを提案する。
これらの新たな課題は、探索されていない環境での操作とナビゲーションのスキルを組み合わせる必要がある。
本研究では,探索,ナビゲーション,操作のスキルを習得する階層的強化学習手法であるHIMOSを提案する。
論文 参考訳(メタデータ) (2023-07-12T12:25:33Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of
Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。
私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文 参考訳(メタデータ) (2022-03-28T19:09:11Z) - Decentralized Global Connectivity Maintenance for Multi-Robot
Navigation: A Reinforcement Learning Approach [12.649986200029717]
本研究では、接続性を維持しながら、未知の環境でマルチロボットチームをナビゲートする方法を検討する。
複数のロボット間で共有される分散型ポリシーを開発するための強化学習手法を提案する。
接続制約と行動クローニングの異なる組み合わせを比較することで,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2021-09-17T13:20:19Z) - Collaborative Visual Navigation [69.20264563368762]
マルチエージェント視覚ナビゲーション(MAVN)のための大規模3次元データセットCollaVNを提案する。
様々なMAVN変種を探索し、この問題をより一般化する。
メモリ拡張通信フレームワークを提案する。各エージェントには、通信情報を永続的に保存するプライベートな外部メモリが備わっている。
論文 参考訳(メタデータ) (2021-07-02T15:48:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。