論文の概要: Collaborative Visual Navigation
- arxiv url: http://arxiv.org/abs/2107.01151v1
- Date: Fri, 2 Jul 2021 15:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 16:06:14.229619
- Title: Collaborative Visual Navigation
- Title(参考訳): 協調型視覚ナビゲーション
- Authors: Haiyang Wang, Wenguan Wang, Xizhou Zhu, Jifeng Dai, Liwei Wang
- Abstract要約: マルチエージェント視覚ナビゲーション(MAVN)のための大規模3次元データセットCollaVNを提案する。
様々なMAVN変種を探索し、この問題をより一般化する。
メモリ拡張通信フレームワークを提案する。各エージェントには、通信情報を永続的に保存するプライベートな外部メモリが備わっている。
- 参考スコア(独自算出の注目度): 69.20264563368762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a fundamental problem for Artificial Intelligence, multi-agent system
(MAS) is making rapid progress, mainly driven by multi-agent reinforcement
learning (MARL) techniques. However, previous MARL methods largely focused on
grid-world like or game environments; MAS in visually rich environments has
remained less explored. To narrow this gap and emphasize the crucial role of
perception in MAS, we propose a large-scale 3D dataset, CollaVN, for
multi-agent visual navigation (MAVN). In CollaVN, multiple agents are entailed
to cooperatively navigate across photo-realistic environments to reach target
locations. Diverse MAVN variants are explored to make our problem more general.
Moreover, a memory-augmented communication framework is proposed. Each agent is
equipped with a private, external memory to persistently store communication
information. This allows agents to make better use of their past communication
information, enabling more efficient collaboration and robust long-term
planning. In our experiments, several baselines and evaluation metrics are
designed. We also empirically verify the efficacy of our proposed MARL approach
across different MAVN task settings.
- Abstract(参考訳): 人工知能の基本的な問題として、マルチエージェントシステム(MAS)は、主にマルチエージェント強化学習(MARL)技術によって急速に進歩している。
しかしながら、従来のmarlの手法は主にグリッドワールドのようなゲーム環境にフォーカスしており、視覚的にリッチな環境でのmasの探索は少ないままである。
このギャップを狭め,MASにおける知覚の重要な役割を強調するために,マルチエージェント視覚ナビゲーション(MAVN)のための大規模3次元データセットCollaVNを提案する。
collavnでは、複数のエージェントが協調してフォトリアリスティックな環境を渡り、ターゲットの場所に到達する。
この問題をより一般的なものにするために、様々なMAVN変種を探索する。
さらに,メモリ型通信フレームワークを提案する。
各エージェントは、通信情報を永続的に記憶するプライベートな外部メモリを備える。
これにより、エージェントは過去のコミュニケーション情報をよりよく利用し、より効率的なコラボレーションと堅牢な長期計画を可能にします。
実験では,いくつかのベースラインと評価指標を設計した。
また、異なるMAVNタスク設定に対して提案したMARLアプローチの有効性を実証的に検証した。
関連論文リスト
- OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - OVEL: Large Language Model as Memory Manager for Online Video Entity
Linking [57.70595589893391]
我々は,オンラインビデオにおける言及と,高精度かつ時系列の知識ベースとの接続を確立することを目的とした,オンラインビデオエンティティリンクOVELというタスクを提案する。
OVEL タスクを効果的に処理するために,Large Language Model が管理するメモリブロックを活用し,知識ベースからエンティティ候補を抽出し,メモリ管理における LLM 性能を向上させる。
論文 参考訳(メタデータ) (2024-03-03T06:47:51Z) - Attention Graph for Multi-Robot Social Navigation with Deep
Reinforcement Learning [0.0]
深部強化学習(RL)を用いたマルチエージェント社会認識ナビゲーション戦略の学習方法であるMultiSocを提案する。
マルチエージェントディープRLに関する最近の研究から着想を得た本手法は,エージェント相互作用のグラフベース表現を利用して,エンティティ(歩行者とエージェント)の位置と視野を組み合わせる。
提案手法はソーシャルナビゲーションよりも高速に学習し,複数の異種人との群集ナビゲーションに挑戦する上で,効率的なマルチエージェントの暗黙調整を可能にする。
論文 参考訳(メタデータ) (2024-01-31T15:24:13Z) - Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation using
Large Language Models [10.312968200748118]
Co-NavGPTは、多ボット協調視覚目標ナビゲーションのためのグローバルプランナーとしてLarge Language Modelsを統合する革新的なフレームワークである。
探索された環境データをプロンプトにエンコードし、LLMのシーン理解を強化する。
その後、探索フロンティアを各ロボットに割り当て、効率的な目標探索を行う。
論文 参考訳(メタデータ) (2023-10-11T23:17:43Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Recent Advances in Embedding Methods for Multi-Object Tracking: A Survey [71.10448142010422]
マルチオブジェクトトラッキング(MOT)は、動画フレーム全体で対象物を関連付け、移動軌道全体を取得することを目的としている。
埋め込み法はMOTにおける物体の位置推定と時間的同一性関連において重要な役割を担っている。
まず 7 つの異なる視点からMOT への埋め込み手法の奥行き解析による包括的概要を述べる。
論文 参考訳(メタデータ) (2022-05-22T06:54:33Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Multi-Agent Embodied Visual Semantic Navigation with Scene Prior
Knowledge [42.37872230561632]
視覚的セマンティックナビゲーションでは、ロボットは自我中心の視覚的観察を行い、目標のクラスラベルが与えられる。
既存のモデルのほとんどは単一エージェントナビゲーションにのみ有効であり、より複雑なタスクを完了すると、単一のエージェントは低効率でフォールトトレランスが低い。
本稿では,複数のエージェントが協調して複数の対象物を見つけるマルチエージェント視覚意味ナビゲーションを提案する。
論文 参考訳(メタデータ) (2021-09-20T13:31:03Z) - A Visual Communication Map for Multi-Agent Deep Reinforcement Learning [7.003240657279981]
マルチエージェント学習は、隠蔽された通信媒体を割り当てる上で大きな課題となる。
最近の研究は一般的に、エージェント間の通信を可能にするために、特殊なニューラルネットワークと強化学習を組み合わせる。
本稿では,多数のエージェントを扱うだけでなく,異種機能エージェント間の協調を可能にする,よりスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T02:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。