論文の概要: Advancing Audio-Visual Navigation Through Multi-Agent Collaboration in 3D Environments
- arxiv url: http://arxiv.org/abs/2509.22698v1
- Date: Sun, 21 Sep 2025 05:05:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.802805
- Title: Advancing Audio-Visual Navigation Through Multi-Agent Collaboration in 3D Environments
- Title(参考訳): 3次元環境におけるマルチエージェント協調によるオーディオ・ビジュアルナビゲーションの促進
- Authors: Hailong Zhang, Yinfeng Yu, Liejun Wang, Fuchun Sun, Wendong Zheng,
- Abstract要約: MASTAVNはスケーラブルなフレームワークで、2人のエージェントが共同で3D環境でオーディオターゲットにローカライズし、ナビゲートすることができる。
MASTAVNは単一エージェントや非協調ベースラインと比較してタスク完了時間の大幅な短縮とナビゲーション成功率の顕著な改善を実現している。
- 参考スコア(独自算出の注目度): 37.73614419658084
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Intelligent agents often require collaborative strategies to achieve complex tasks beyond individual capabilities in real-world scenarios. While existing audio-visual navigation (AVN) research mainly focuses on single-agent systems, their limitations emerge in dynamic 3D environments where rapid multi-agent coordination is critical, especially for time-sensitive applications like emergency response. This paper introduces MASTAVN (Multi-Agent Scalable Transformer Audio-Visual Navigation), a scalable framework enabling two agents to collaboratively localize and navigate toward an audio target in shared 3D environments. By integrating cross-agent communication protocols and joint audio-visual fusion mechanisms, MASTAVN enhances spatial reasoning and temporal synchronization. Through rigorous evaluation in photorealistic 3D simulators (Replica and Matterport3D), MASTAVN achieves significant reductions in task completion time and notable improvements in navigation success rates compared to single-agent and non-collaborative baselines. This highlights the essential role of spatiotemporal coordination in multi-agent systems. Our findings validate MASTAVN's effectiveness in time-sensitive emergency scenarios and establish a paradigm for advancing scalable multi-agent embodied intelligence in complex 3D environments.
- Abstract(参考訳): インテリジェントエージェントは、現実のシナリオにおける個々の能力を超えた複雑なタスクを達成するために、協調戦略を必要とすることが多い。
既存のオーディオ視覚ナビゲーション(AVN)の研究は主に単一エージェントシステムに焦点を当てているが、特に緊急応答のような時間に敏感なアプリケーションにおいて、迅速なマルチエージェント調整が重要である動的な3D環境に制限が現れる。
本稿では,MASTAVN(Multi-Agent Scalable Transformer Audio-Visual Navigation)について紹介する。
クロスエージェント通信プロトコルとジョイントオーディオ-視覚融合機構を統合することで、MASTAVNは空間的推論と時間的同期を強化する。
フォトリアリスティックな3Dシミュレータ(ReplicaとMatterport3D)の厳密な評価により、MASTAVNはタスク完了時間を大幅に短縮し、単一エージェントおよび非協調ベースラインと比較してナビゲーション成功率を顕著に改善した。
これはマルチエージェントシステムにおける時空間調整の本質的な役割を強調している。
本研究は,MASTAVNの時間感受性緊急シナリオにおける有効性を評価し,複雑な3次元環境においてスケーラブルなマルチエージェントエンボディインテリジェンスを向上するためのパラダイムを確立した。
関連論文リスト
- Efficient Multi-Person Motion Prediction by Lightweight Spatial and Temporal Interactions [45.51160285910023]
空間的・時間的相互作用を単純化し,多人数動作予測のための計算効率の良いモデルを提案する。
CMU-Mocap, MuPoTS-3D, 3DPW の標準データセット上で, マルチメトリックの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-13T02:16:37Z) - Which2comm: An Efficient Collaborative Perception Framework for 3D Object Detection [5.195291754828701]
協調認識は、リアルタイムのエージェント間の情報交換を可能にする。
実用シナリオにおける通信帯域幅の制限は、エージェント間データ転送量を制限する。
オブジェクトレベルのスパース機能を利用した新しいマルチエージェント3Dオブジェクト検出フレームワークであるH which2commを提案する。
論文 参考訳(メタデータ) (2025-03-21T14:24:07Z) - CSAOT: Cooperative Multi-Agent System for Active Object Tracking [1.384468678066823]
Active Object Tracking (AOT) は、複雑な環境で移動対象との視覚的接触を維持するために、コントローラエージェントが視点を積極的に調整する必要がある。
既存のAOTソリューションは主にシングルエージェントベースで、動的で複雑なシナリオに苦しむ。
我々は,複数のエージェントがひとつのデバイス上で動作できるようにするために,CSAOT(Collaborative System for Active Object Tracking)を導入する。
論文 参考訳(メタデータ) (2025-01-23T10:44:35Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - A Visual Communication Map for Multi-Agent Deep Reinforcement Learning [7.003240657279981]
マルチエージェント学習は、隠蔽された通信媒体を割り当てる上で大きな課題となる。
最近の研究は一般的に、エージェント間の通信を可能にするために、特殊なニューラルネットワークと強化学習を組み合わせる。
本稿では,多数のエージェントを扱うだけでなく,異種機能エージェント間の協調を可能にする,よりスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T02:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。