Fugu-MT 論文翻訳(概要): Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation using Large Language Models

論文の概要: Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation using Large Language Models

arxiv url: http://arxiv.org/abs/2310.07937v2
Date: Mon, 25 Dec 2023 07:57:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-28 01:36:35.073557
Title: Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation using Large Language Models
Title（参考訳）: Co-NavGPT:大規模言語モデルを用いた複数ロボット協調視覚セマンティックナビゲーション
Authors: Bangguo Yu, Hamidreza Kasaei, Ming Cao
Abstract要約: Co-NavGPTは、多ボット協調視覚目標ナビゲーションのためのグローバルプランナーとしてLarge Language Modelsを統合する革新的なフレームワークである。探索された環境データをプロンプトにエンコードし、LLMのシーン理解を強化する。その後、探索フロンティアを各ロボットに割り当て、効率的な目標探索を行う。
参考スコア（独自算出の注目度）: 10.312968200748118
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In advanced human-robot interaction tasks, visual target navigation is crucial for autonomous robots navigating unknown environments. While numerous approaches have been developed in the past, most are designed for single-robot operations, which often suffer from reduced efficiency and robustness due to environmental complexities. Furthermore, learning policies for multi-robot collaboration are resource-intensive. To address these challenges, we propose Co-NavGPT, an innovative framework that integrates Large Language Models (LLMs) as a global planner for multi-robot cooperative visual target navigation. Co-NavGPT encodes the explored environment data into prompts, enhancing LLMs' scene comprehension. It then assigns exploration frontiers to each robot for efficient target search. Experimental results on Habitat-Matterport 3D (HM3D) demonstrate that Co-NavGPT surpasses existing models in success rates and efficiency without any learning process, demonstrating the vast potential of LLMs in multi-robot collaboration domains. The supplementary video, prompts, and code can be accessed via the following link: https://sites.google.com/view/co-navgpt
Abstract（参考訳）: 高度な人間とロボットのインタラクションタスクでは、未知の環境をナビゲートする自律ロボットにとって視覚的ターゲットナビゲーションが不可欠である。過去に多くのアプローチが開発されてきたが、ほとんどは単一ロボットの操作用に設計されており、環境の複雑さにより効率と堅牢性が低下することが多い。さらに、マルチロボットコラボレーションのための学習ポリシーはリソース集約的である。このような課題に対処するため,我々は多ロボット協調視覚目標ナビゲーションのためのグローバルプランナとして大規模言語モデル(LLM)を統合する革新的なフレームワークであるCo-NavGPTを提案する。 Co-NavGPTは、探索された環境データをプロンプトにエンコードし、LLMのシーン理解を強化する。その後、探索フロンティアを各ロボットに割り当て、効率的な目標探索を行う。 Habitat-Matterport 3D(HM3D)の実験結果は、Co-NavGPTが学習プロセスなしで既存のモデルよりも成功率と効率を上回り、マルチロボット協調領域におけるLLMの膨大な可能性を示している。追加ビデオ、プロンプト、コードは以下のリンクからアクセスできる。

関連論文リスト

General-Purpose Robotic Navigation via LVLM-Orchestrated Perception, Reasoning, and Acting [9.157222032441531]
Agentic Robotic Navigation Architecture (ARNA)は、LVLMベースのエージェントに知覚、推論、ナビゲーションツールのライブラリを装備する汎用ナビゲーションフレームワークである。実行時に、エージェントは自律的にタスク固有のナビゲーションを定義し、実行し、ロボットモジュールを反復的にクエリし、マルチモーダル入力を推論し、適切なナビゲーションアクションを選択する。 ARNAは最先端のパフォーマンスを達成し、手作りの計画や固定された入力表現、既存の地図に頼ることなく、効果的な探索、ナビゲーション、具体化された質問応答を実証する。
論文参考訳（メタデータ） (2025-06-20T20:06:14Z)
NavBench: A Unified Robotics Benchmark for Reinforcement Learning-Based Autonomous Navigation [16.554282855005766]
我々は、強化学習に基づくナビゲーションポリシーのトレーニングと評価のためのベンチマークであるNavBenchを紹介する。我々のフレームワークはタスク定義を標準化し、異なるロボットが様々なナビゲーション課題に取り組むことを可能にする。 NavBenchはシミュレーションと実世界のデプロイメントの一貫性を確保することで、RLベースのナビゲーション戦略の開発を簡単にする。
論文参考訳（メタデータ） (2025-05-20T15:48:23Z)
SayCoNav: Utilizing Large Language Models for Adaptive Collaboration in Decentralized Multi-Robot Navigation [10.877873071364148]
ロボットチーム間での協調戦略を自動生成するために,大規模言語モデル(LLM)を活用する新しいアプローチであるSayCoNavを提案する。我々は,SyCoNav on Multi-Object Navigation (MultiON) タスクを評価する。これはロボットのチームが,未知の環境で複数の異なる物体を効率的に探索するために,相補的な強みを利用する必要がある。
論文参考訳（メタデータ） (2025-05-19T20:58:06Z)
Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities [65.98704516122228]
基礎モデル(FM)をロボット工学に統合することで、ロボットは自然言語を理解し、環境のセマンティクスを推論できるようになった。本稿では,FM対応ロボットを現場に展開する上で,大規模で非構造的な環境下でのロボットの運用に必要なミッションについて述べる。数kmのミッションを持つ非構造環境下での大規模LLM対応ロボット計画の実証実験を行った。
論文参考訳（メタデータ） (2025-05-14T15:28:43Z)
VL-Nav: Real-time Vision-Language Navigation with Spatial Reasoning [11.140494493881075]
低消費電力ロボットに効率的な空間推論を組み込んだ視覚言語ナビゲーション(VL-Nav)システムを提案する。ロボットを誘導するための単一の画像レベルの特徴類似性に依存する従来の手法とは異なり、本手法は画素単位の視覚言語機能と好奇心駆動探索を統合している。 VL-Navは、全体の成功率86.3%に達し、以前の手法を44.15%上回った。
論文参考訳（メタデータ） (2025-02-02T21:44:15Z)
LPAC: Learnable Perception-Action-Communication Loops with Applications to Coverage Control [80.86089324742024]
本稿では,その問題に対する学習可能なパーセプション・アクション・コミュニケーション(LPAC)アーキテクチャを提案する。 CNNは局所認識を処理する。グラフニューラルネットワーク(GNN)はロボットのコミュニケーションを促進する。評価の結果,LPACモデルは標準分散型および集中型カバレッジ制御アルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2024-01-10T00:08:00Z)
From Simulations to Reality: Enhancing Multi-Robot Exploration for Urban Search and Rescue [46.377510400989536]
本研究では,コミュニケーションが限られ,位置情報がない未知の環境での効率的なマルチロボット探索のための新しいハイブリッドアルゴリズムを提案する。連続した目標情報なしでシナリオに合うように、ローカルなベストとグローバルなベストポジションを再定義する。提示された研究は、限られた情報と通信能力を持つシナリオにおけるマルチロボット探索の強化を約束している。
論文参考訳（メタデータ） (2023-11-28T17:05:25Z)
NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文参考訳（メタデータ） (2023-10-11T21:07:14Z)
SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。 SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文参考訳（メタデータ） (2023-09-08T02:24:37Z)
Target Search and Navigation in Heterogeneous Robot Systems with Deep Reinforcement Learning [3.3167319223959373]
未知の環境下での探索・救助ミッションのためのUAVとUGVからなる異種ロボットシステムを設計する。このシステムは、深い強化学習アルゴリズムによって学習されたポリシーを用いて、迷路のような鉱山環境でターゲットを探索し、それらをナビゲートすることができる。
論文参考訳（メタデータ） (2023-08-01T07:09:14Z)
Learning Hierarchical Interactive Multi-Object Search for Mobile Manipulation [10.21450780640562]
本稿では,ロボットが扉を開けて部屋をナビゲートし,キャビネットや引き出しの中を探索し,対象物を見つける,インタラクティブな多目的探索タスクを提案する。これらの新たな課題は、探索されていない環境での操作とナビゲーションのスキルを組み合わせる必要がある。本研究では,探索,ナビゲーション,操作のスキルを習得する階層的強化学習手法であるHIMOSを提案する。
論文参考訳（メタデータ） (2023-07-12T12:25:33Z)
ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。 ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文参考訳（メタデータ） (2023-04-06T13:07:17Z)
Audio Visual Language Maps for Robot Navigation [30.33041779258644]
音声, 視覚, 言語情報からのクロスモーダル情報を格納するための3次元空間地図表現を統一したAVLMap(Audio-Visual-Language Map)を提案する。 AVLMapsは、インターネット規模で事前訓練されたマルチモーダル基礎モデルのオープン語彙機能を統合する。ナビゲーションの文脈において、AVLMapsは、例えば、テキスト記述、画像、ランドマークの音声スニペットなどのマルチモーダルクエリに基づいて、ロボットシステムが地図内の目標をインデックスできることを示す。
論文参考訳（メタデータ） (2023-03-13T23:17:51Z)
GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。ロボット間の効率的なデータ共有に必要な設計決定について分析する。我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文参考訳（メタデータ） (2022-10-07T07:26:41Z)
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文参考訳（メタデータ） (2022-07-10T10:41:50Z)
Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文参考訳（メタデータ） (2022-03-28T19:09:11Z)
Decentralized Global Connectivity Maintenance for Multi-Robot Navigation: A Reinforcement Learning Approach [12.649986200029717]
本研究では、接続性を維持しながら、未知の環境でマルチロボットチームをナビゲートする方法を検討する。複数のロボット間で共有される分散型ポリシーを開発するための強化学習手法を提案する。接続制約と行動クローニングの異なる組み合わせを比較することで,提案手法の有効性を検証した。
論文参考訳（メタデータ） (2021-09-17T13:20:19Z)
Collaborative Visual Navigation [69.20264563368762]
マルチエージェント視覚ナビゲーション(MAVN)のための大規模3次元データセットCollaVNを提案する。様々なMAVN変種を探索し、この問題をより一般化する。メモリ拡張通信フレームワークを提案する。各エージェントには、通信情報を永続的に保存するプライベートな外部メモリが備わっている。
論文参考訳（メタデータ） (2021-07-02T15:48:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。