論文の概要: Multi-Agent Embodied Visual Semantic Navigation with Scene Prior
Knowledge
- arxiv url: http://arxiv.org/abs/2109.09531v1
- Date: Mon, 20 Sep 2021 13:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:33:57.027847
- Title: Multi-Agent Embodied Visual Semantic Navigation with Scene Prior
Knowledge
- Title(参考訳): シーン事前知識を用いたマルチエージェント型視覚セマンティックナビゲーション
- Authors: Xinzhu Liu, Di Guo, Huaping Liu, and Fuchun Sun
- Abstract要約: 視覚的セマンティックナビゲーションでは、ロボットは自我中心の視覚的観察を行い、目標のクラスラベルが与えられる。
既存のモデルのほとんどは単一エージェントナビゲーションにのみ有効であり、より複雑なタスクを完了すると、単一のエージェントは低効率でフォールトトレランスが低い。
本稿では,複数のエージェントが協調して複数の対象物を見つけるマルチエージェント視覚意味ナビゲーションを提案する。
- 参考スコア(独自算出の注目度): 42.37872230561632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In visual semantic navigation, the robot navigates to a target object with
egocentric visual observations and the class label of the target is given. It
is a meaningful task inspiring a surge of relevant research. However, most of
the existing models are only effective for single-agent navigation, and a
single agent has low efficiency and poor fault tolerance when completing more
complicated tasks. Multi-agent collaboration can improve the efficiency and has
strong application potentials. In this paper, we propose the multi-agent visual
semantic navigation, in which multiple agents collaborate with others to find
multiple target objects. It is a challenging task that requires agents to learn
reasonable collaboration strategies to perform efficient exploration under the
restrictions of communication bandwidth. We develop a hierarchical decision
framework based on semantic mapping, scene prior knowledge, and communication
mechanism to solve this task. The results of testing experiments in unseen
scenes with both known objects and unknown objects illustrate the higher
accuracy and efficiency of the proposed model compared with the single-agent
model.
- Abstract(参考訳): 視覚意味ナビゲーションでは、ロボットはエゴセントリックな視覚観察で対象オブジェクトにナビゲートし、対象のクラスラベルが与えられる。
関連する研究の急増を刺激する有意義なタスクである。
しかし、既存のモデルのほとんどは単一エージェントナビゲーションにのみ有効であり、より複雑なタスクを完了すると、単一のエージェントは低効率で耐障害性が低い。
マルチエージェントコラボレーションは効率を向上し、強い応用可能性を持つ。
本稿では,複数のエージェントが協調して複数の対象オブジェクトを探索するマルチエージェント視覚意味ナビゲーションを提案する。
コミュニケーション帯域の制限の下で効率的な探索を行うためには,エージェントが合理的なコラボレーション戦略を学ぶ必要がある。
この課題を解決するために, 意味マッピング, シーン先行知識, コミュニケーション機構に基づく階層的決定フレームワークを開発した。
未知の物体と未知の物体の両方を含む未発見のシーンにおけるテスト実験の結果は、単一エージェントモデルと比較して提案モデルの精度と効率が高かったことを示している。
関連論文リスト
- DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight Detection [7.864892339833315]
本稿では,共同モーメント検索とハイライト検出のためのタスク駆動型トップダウンフレームワークを提案する。
このフレームワークはタスク固有の共通表現をキャプチャするタスク分離ユニットを導入している。
QVHighlights、TVSum、Charades-STAデータセットに関する総合的な実験と詳細なアブレーション研究は、提案フレームワークの有効性と柔軟性を裏付けるものである。
論文 参考訳(メタデータ) (2024-04-14T14:06:42Z) - Attention Graph for Multi-Robot Social Navigation with Deep
Reinforcement Learning [0.0]
深部強化学習(RL)を用いたマルチエージェント社会認識ナビゲーション戦略の学習方法であるMultiSocを提案する。
マルチエージェントディープRLに関する最近の研究から着想を得た本手法は,エージェント相互作用のグラフベース表現を利用して,エンティティ(歩行者とエージェント)の位置と視野を組み合わせる。
提案手法はソーシャルナビゲーションよりも高速に学習し,複数の異種人との群集ナビゲーションに挑戦する上で,効率的なマルチエージェントの暗黙調整を可能にする。
論文 参考訳(メタデータ) (2024-01-31T15:24:13Z) - Heterogeneous Embodied Multi-Agent Collaboration [21.364827833498254]
不均一なマルチエージェントタスクは現実世界のシナリオでは一般的である。
本稿では,複数の異種エージェントが協調して異種物体を検出し,適切な位置に配置する異種マルチエージェント・タイピング・アップタスクを提案する。
本稿では, 乱れ検出に基づく階層的決定モデル, 合理的な受容器予測, およびハンドシェイクに基づくグループ通信機構を提案する。
論文 参考訳(メタデータ) (2023-07-26T04:33:05Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Multi-target tracking for video surveillance using deep affinity
network: a brief review [0.0]
ビデオ監視のためのマルチターゲットトラッキング(MTT)は、重要かつ困難なタスクの1つである。
深層学習モデルは人間の脳のように機能することが知られている。
論文 参考訳(メタデータ) (2021-10-29T10:44:26Z) - Collaborative Visual Navigation [69.20264563368762]
マルチエージェント視覚ナビゲーション(MAVN)のための大規模3次元データセットCollaVNを提案する。
様々なMAVN変種を探索し、この問題をより一般化する。
メモリ拡張通信フレームワークを提案する。各エージェントには、通信情報を永続的に保存するプライベートな外部メモリが備わっている。
論文 参考訳(メタデータ) (2021-07-02T15:48:16Z) - FairMOT: On the Fairness of Detection and Re-Identification in Multiple
Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。
本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。
このアプローチは、検出と追跡の両方において高い精度を達成する。
論文 参考訳(メタデータ) (2020-04-04T08:18:00Z) - A Visual Communication Map for Multi-Agent Deep Reinforcement Learning [7.003240657279981]
マルチエージェント学習は、隠蔽された通信媒体を割り当てる上で大きな課題となる。
最近の研究は一般的に、エージェント間の通信を可能にするために、特殊なニューラルネットワークと強化学習を組み合わせる。
本稿では,多数のエージェントを扱うだけでなく,異種機能エージェント間の協調を可能にする,よりスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T02:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。