論文の概要: ORION: Option-Regularized Deep Reinforcement Learning for Cooperative Multi-Agent Online Navigation
- arxiv url: http://arxiv.org/abs/2601.01155v2
- Date: Mon, 26 Jan 2026 08:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.616565
- Title: ORION: Option-Regularized Deep Reinforcement Learning for Cooperative Multi-Agent Online Navigation
- Title(参考訳): ORION: 協調型多エージェントオンラインナビゲーションのためのオプション正規化深層強化学習
- Authors: Shizhe Zhang, Jingsong Liang, Zhitao Zhou, Shuhan Ye, Yizhuo Wang, Ming Siang Derek Tan, Jimmy Chiun, Yuhong Cao, Guillaume Sartoretti,
- Abstract要約: ORIONは、部分的に知られている環境で協調的なマルチエージェントオンラインナビゲーションのための、新しい深層強化学習フレームワークである。
ORIONの中核は、高レベルの協調モードのセットについて推論することを学ぶオプションクリティカルなフレームワークである。
シミュレーションの結果,ORIONは様々なチームサイズに対して高品質でリアルタイムな分散協調を実現することがわかった。
- 参考スコア(独自算出の注目度): 5.834992848353096
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing methods for multi-agent navigation typically assume fully known environments, offering limited support for partially known scenarios such as warehouses or factory floors. There, agents may need to plan trajectories that balance their own path optimality with their ability to collect and share information about the environment that can help their teammates reach their own goals. To these ends, we propose ORION, a novel deep reinforcement learning framework for cooperative multi-agent online navigation in partially known environments. Starting from an imperfect prior map, ORION trains agents to make decentralized decisions, coordinate to reach their individual targets, and actively reduce map uncertainty by sharing online observations in a closed perception-action loop. We first design a shared graph encoder that fuses prior map with online perception into a unified representation, providing robust state embeddings under dynamic map discrepancies. At the core of ORION is an option-critic framework that learns to reason about a set of high-level cooperative modes that translate into sequences of low-level actions, allowing agents to switch between individual navigation and team-level exploration adaptively. We further introduce a dual-stage cooperation strategy that enables agents to assist teammates under map uncertainty, thereby reducing the overall makespan. Across extensive maze-like maps and large-scale warehouse environments, our simulation results show that ORION achieves high-quality, real-time decentralized cooperation over varying team sizes, outperforming state-of-the-art classical and learning-based baselines. Finally, we validate ORION on physical robot teams, demonstrating its robustness and practicality for real-world cooperative navigation.
- Abstract(参考訳): 既存のマルチエージェントナビゲーションの手法では、倉庫や工場のフロアなど一部の既知のシナリオを限定的にサポートする、完全に既知の環境を前提としている。
エージェントは、自身のパスの最適性と、チームメイトが自身の目標を達成するのに役立つ環境に関する情報を収集し共有する能力のバランスをとるトラジェクトリを計画する必要があるかもしれない。
そこで本研究では,協調型マルチエージェントオンラインナビゲーションのための新しい深層強化学習フレームワークORIONを提案する。
不完全な事前地図から始めると、ORIONはエージェントに分散された決定をし、個々の目標に到達するように調整し、閉じた知覚行動ループでオンライン観察を共有することで、マップの不確実性を積極的に軽減するように訓練する。
まず,先行地図とオンライン認識を融合した共有グラフエンコーダを設計し,動的地図の相違点下での堅牢な状態埋め込みを実現する。
ORIONの中核となるオプションクリティカルなフレームワークは、個々のナビゲーションとチームレベルの探索を適応的に切り替えられるように、低レベルのアクションのシーケンスに変換する、一連の高レベルの協調モードについて推論することを学ぶ。
さらに、エージェントがマップの不確実性の下でチームメイトを支援するための二段階協調戦略を導入し、それによって全体の規模を縮小する。
広範囲にわたる迷路のような地図や大規模倉庫環境のシミュレーション結果から,ORIONは様々なチームサイズに対して高品質でリアルタイムな分散協力を実現し,最先端の古典的,学習ベースのベースラインを上回ります。
最後に,物理ロボットチームにおけるORIONの有効性を検証し,実世界の協調ナビゲーションにおけるロバスト性と実用性を示す。
関連論文リスト
- Communication-Aware Multi-Agent Reinforcement Learning for Decentralized Cooperative UAV Deployment [5.204648436671471]
我々は、分散実行(CTDE)を用いた集中学習の下で訓練されたグラフに基づくマルチエージェント強化学習フレームワークを提案する。
中央集権的な批評家とグローバルな国家は訓練中のみ利用可能であり、各UAVは近隣住民からのローカルな観察とメッセージを使用して共有ポリシーを実行する。
本アーキテクチャでは,ローカルエージェントの状態と周辺エンティティをエージェント・エンタテイメント・モジュールでエンコードし,距離限定通信グラフ上でUAV間メッセージを隣接する自己注意で集約する。
論文 参考訳(メタデータ) (2026-03-17T05:48:51Z) - TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size [54.0714652192002]
物理に基づくヒューマノイド制御は、現実的でハイパフォーマンスな単一エージェントの動作を可能にするために顕著な進歩を遂げた。
我々は,複数の協力エージェント間で協調的なHOIを処理するための,単一の分散政策を実現するためのフレームワークであるTeamHOIを提案する。
論文 参考訳(メタデータ) (2026-03-09T05:52:13Z) - Global Commander and Local Operative: A Dual-Agent Framework for Scene Navigation [96.88162755522342]
視覚と言語 シーンナビゲーションは、人間のAIを具現化する基本的な能力である。
DACoは,グローバルな議論を現地の基盤から切り離す,計画的な非結合型アーキテクチャである。
グローバルな推論を局所的な行動から遠ざけることで、DACoは認知的過負荷を軽減し、長期的安定性を向上させる。
論文 参考訳(メタデータ) (2026-02-21T19:19:55Z) - Path Planning Optimisation for SParse, AwaRe and Cooperative Networked Aerial Robot Teams (SpArC-NARTs): Optimisation Tool and Ground Sensing Coverage Use Cases [1.376408511310322]
ネットワーク化された空中ロボットチーム(NART)は、無線リンクで相互接続されたエージェントのグループから構成される。
間欠的(すなわちスパース)であっても、エージェント間のデータ交換を可能にし、協調行動をサポートする。
本稿では,スパース,アウェア,協調型ネットワーク型ロボットチームのための新しい経路計画ツールを提案する。
論文 参考訳(メタデータ) (2026-02-15T17:40:45Z) - ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。
本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文 参考訳(メタデータ) (2026-01-26T19:09:20Z) - IG-MCTS: Human-in-the-Loop Cooperative Navigation under Incomplete Information [22.47189812250736]
CoNav-Mazeは、人間のオペレータが不正確な地図に基づいてガイダンスを提供する間、ロボットが局所的な知覚でナビゲートするシミュレーション環境である。
我々は,自律移動と情報通信を協調的に最適化する情報ゲインモンテカルロ木探索(IG-MCTS)を提案する。
IG-MCTSはコミュニケーション要求を著しく減らし、認知負荷の低下を示す視線追跡指標を得る。
論文 参考訳(メタデータ) (2025-02-03T22:08:04Z) - MASP: Scalable GNN-based Planning for Multi-Agent Navigation [18.70078556851899]
Multi-Agent Scalable Graph-based Planner (MASP)は、ナビゲーションタスクのためのゴール条件付き階層型プランナーである。
MASPは、大規模な探索空間を複数の目標条件付き部分空間に分解することで、空間の複雑さを低減するために階層的なフレームワークを採用している。
エージェントの協力とさまざまなチームサイズへの適応のために、エージェントと目標をグラフとしてモデル化し、それらの関係をよりよく捉えます。
論文 参考訳(メタデータ) (2023-12-05T06:05:04Z) - Long-HOT: A Modular Hierarchical Approach for Long-Horizon Object
Transport [83.06265788137443]
我々は、時間的拡張ナビゲーションのための新しいオブジェクトトランスポートタスクと新しいモジュラーフレームワークを提案することで、長距離探査と航法を具現化する上で重要な課題に対処する。
私たちの最初の貢献は、深層探査と長期計画に焦点を当てた新しいLong-HOT環境の設計である。
重み付けされたフロンティアの助けを借りて探索を行うために,シーンのトポロジカルグラフを構築するモジュラー階層輸送ポリシー(HTP)を提案する。
論文 参考訳(メタデータ) (2022-10-28T05:30:49Z) - Teaching Agents how to Map: Spatial Reasoning for Multi-Object
Navigation [11.868792440783055]
与えられた位置におけるエージェントと到達目標の間の空間的関係を定量化する指標を推定する学習は、多目的ナビゲーション設定において高い正の影響を及ぼすことを示す。
提案された補助的損失で訓練された文献の学習ベースのエージェントは、マルチオブジェクトナビゲーションチャレンジへの勝利であった。
論文 参考訳(メタデータ) (2021-07-13T12:01:05Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。