論文の概要: Intrinsic-Motivation Multi-Robot Social Formation Navigation with Coordinated Exploration
- arxiv url: http://arxiv.org/abs/2512.13293v1
- Date: Mon, 15 Dec 2025 13:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.668932
- Title: Intrinsic-Motivation Multi-Robot Social Formation Navigation with Coordinated Exploration
- Title(参考訳): 協調探索による固有運動型マルチロボット社会形成ナビゲーション
- Authors: Hao Fua, Wei Liu, Shuai Zhoua,
- Abstract要約: 協調探索型マルチロボットRLアルゴリズムを提案する。
その中核となるコンポーネントは、政策保守主義を一括して緩和するために設計された自己学習固有の報酬メカニズムである。
ソーシャルフォーメーションナビゲーションベンチマークの実証的な結果は,提案アルゴリズムの優れた性能を示すものである。
- 参考スコア(独自算出の注目度): 3.5945684983210264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the application of reinforcement learning (RL) to multi-robot social formation navigation, a critical capability for enabling seamless human-robot coexistence. While RL offers a promising paradigm, the inherent unpredictability and often uncooperative dynamics of pedestrian behavior pose substantial challenges, particularly concerning the efficiency of coordinated exploration among robots. To address this, we propose a novel coordinated-exploration multi-robot RL algorithm introducing an intrinsic motivation exploration. Its core component is a self-learning intrinsic reward mechanism designed to collectively alleviate policy conservatism. Moreover, this algorithm incorporates a dual-sampling mode within the centralized training and decentralized execution framework to enhance the representation of both the navigation policy and the intrinsic reward, leveraging a two-time-scale update rule to decouple parameter updates. Empirical results on social formation navigation benchmarks demonstrate the proposed algorithm's superior performance over existing state-of-the-art methods across crucial metrics. Our code and video demos are available at: https://github.com/czxhunzi/CEMRRL.
- Abstract(参考訳): 本稿では,マルチロボット社会形成ナビゲーションへの強化学習(RL)の適用について検討する。
RLは有望なパラダイムを提供するが、本質的に予測不可能であり、しばしば非協調的な歩行者行動のダイナミクスは、特にロボット間の協調探索の効率に関して重大な課題を引き起こす。
そこで本研究では,本質的なモチベーション探索を導入した協調探索型マルチロボットRLアルゴリズムを提案する。
その中核となるコンポーネントは、政策保守主義を一括して緩和するために設計された自己学習固有の報酬メカニズムである。
さらに、このアルゴリズムは、集中的なトレーニングと分散実行フレームワークにデュアルサンプリングモードを導入し、ナビゲーションポリシーと本質的な報酬の両方の表現を強化し、2段階の更新ルールを利用してパラメータの更新を分離する。
ソーシャルフォーメーションナビゲーションベンチマークの実証的な結果は、提案アルゴリズムが重要な指標を越えて既存の最先端手法よりも優れた性能を示す。
私たちのコードとビデオのデモは、https://github.com/czxhunzi/CEMRRL.comで公開されています。
関連論文リスト
- Socially aware navigation for mobile robots: a survey on deep reinforcement learning approaches [1.2891210250935148]
社会に意識されたナビゲーションはロボット工学において急速に発展する研究領域であり、ロボットは暗黙の人間の社会規範に固執しながら、人間の環境内を移動することができる。
深層強化学習(Dep Reinforcement Learning, DRL)は、ロボットがそれらの目的を効果的に達成しつつ、これらの社会的慣行を組み込むことのできるナビゲーションポリシーの開発を加速した。
このサーベイは、DRLに基づく社会に意識したナビゲーションのアプローチの概要を提供し、プロキシ、人間の快適性、自然性、軌道、意図予測といった重要な側面を強調している。
論文 参考訳(メタデータ) (2025-11-18T05:33:28Z) - Integrating Offline Pre-Training with Online Fine-Tuning: A Reinforcement Learning Approach for Robot Social Navigation [3.5801655940143413]
本稿では,Return-to-Go(RTG)を統合した,ロボットソーシャルナビゲーションのためのオフライン・オンラインファインチューニングアルゴリズムを提案する。
本アルゴリズムは,時間的歩行者動作パターンと空間的群集動態を協調的に符号化することにより,RTG値をリアルタイムに正確に推定するトランスフォーマー・ポラル融合モデルを特徴とする。
シミュレーションされた社会航法環境における実験により,本手法は最先端のベースラインに比べて高い成功率と低い衝突率を達成することが示された。
論文 参考訳(メタデータ) (2025-10-01T03:37:02Z) - SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning [26.554847852013737]
SoNICは適応型共形推論と制約付き強化学習を統合する最初のアルゴリズムである。
本手法は,従来の最先端RL法よりも11.67%高い96.93%の成功率を達成する。
実験により,疎密な群集と密集した群集の両方と相互作用して,堅牢で社会的に礼儀正しく意思決定できることを示した。
論文 参考訳(メタデータ) (2024-07-24T17:57:21Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Attention Graph for Multi-Robot Social Navigation with Deep
Reinforcement Learning [0.0]
深部強化学習(RL)を用いたマルチエージェント社会認識ナビゲーション戦略の学習方法であるMultiSocを提案する。
マルチエージェントディープRLに関する最近の研究から着想を得た本手法は,エージェント相互作用のグラフベース表現を利用して,エンティティ(歩行者とエージェント)の位置と視野を組み合わせる。
提案手法はソーシャルナビゲーションよりも高速に学習し,複数の異種人との群集ナビゲーションに挑戦する上で,効率的なマルチエージェントの暗黙調整を可能にする。
論文 参考訳(メタデータ) (2024-01-31T15:24:13Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Centralizing State-Values in Dueling Networks for Multi-Robot
Reinforcement Learning Mapless Navigation [87.85646257351212]
本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。
この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。
我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-16T16:47:00Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。