論文の概要: Multi-Agent Probabilistic Ensembles with Trajectory Sampling for Connected Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2312.13910v3
- Date: Wed, 17 Jul 2024 03:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 03:51:44.121054
- Title: Multi-Agent Probabilistic Ensembles with Trajectory Sampling for Connected Autonomous Vehicles
- Title(参考訳): 軌道サンプリングによる連系自動車のマルチエージェント確率アンサンブル
- Authors: Ruoqi Wen, Jiahao Huang, Rongpeng Li, Guoru Ding, Zhifeng Zhao,
- Abstract要約: 軌道サンプリングMA-PETSを用いた分散マルチエージェント確率アンサンブルを提案する。
特に、未知環境の不確実性をよりよく捉えるために、MA-PETSは確率的アンサンブルニューラルネットワークを利用する。
MFBLに匹敵する試料効率でMA-PETSの優位性を実証的に実証した。
- 参考スコア(独自算出の注目度): 12.71628954436973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous Vehicles (AVs) have attracted significant attention in recent years and Reinforcement Learning (RL) has shown remarkable performance in improving the autonomy of vehicles. In that regard, the widely adopted Model-Free RL (MFRL) promises to solve decision-making tasks in connected AVs (CAVs), contingent on the readiness of a significant amount of data samples for training. Nevertheless, it might be infeasible in practice and possibly lead to learning instability. In contrast, Model-Based RL (MBRL) manifests itself in sample-efficient learning, but the asymptotic performance of MBRL might lag behind the state-of-the-art MFRL algorithms. Furthermore, most studies for CAVs are limited to the decision-making of a single AV only, thus underscoring the performance due to the absence of communications. In this study, we try to address the decision-making problem of multiple CAVs with limited communications and propose a decentralized Multi-Agent Probabilistic Ensembles with Trajectory Sampling algorithm MA-PETS. In particular, in order to better capture the uncertainty of the unknown environment, MA-PETS leverages Probabilistic Ensemble (PE) neural networks to learn from communicated samples among neighboring CAVs. Afterwards, MA-PETS capably develops Trajectory Sampling (TS)-based model-predictive control for decision-making. On this basis, we derive the multi-agent group regret bound affected by the number of agents within the communication range and mathematically validate that incorporating effective information exchange among agents into the multi-agent learning scheme contributes to reducing the group regret bound in the worst case. Finally, we empirically demonstrate the superiority of MA-PETS in terms of the sample efficiency comparable to MFBL.
- Abstract(参考訳): 近年、自律走行車(AV)が注目されており、強化学習(RL)は自動車の自律性向上に顕著な業績を示している。
その点において、広く採用されているMFRL(Model-Free RL)は、コネクテッドAV(CAV)における意思決定タスクの解決を約束している。
それでも、実際には実現不可能であり、おそらく不安定な学習につながるかもしれない。
対照的に、モデルベースRL(MBRL)は、サンプル効率のよい学習で現れているが、MBRLの漸近性能は最先端のMFRLアルゴリズムより遅れる可能性がある。
さらに、CAVのほとんどの研究は単一のAVのみの意思決定に限られており、通信の欠如により性能が低下している。
本研究では,複数のCAVを限られた通信で決定する問題に対処し,トラジェクティブサンプリングアルゴリズムMA-PETSを用いた分散マルチエージェント確率アンサンブルを提案する。
特に、未知の環境の不確実性をより正確に把握するために、MA-PETSは確率的アンサンブル(PE)ニューラルネットワークを活用して、近隣のCAV間の通信サンプルから学習する。
その後、MA-PETSは、意思決定のためのトラジェクトリサンプリング(TS)ベースのモデル予測制御を開発する。
本研究では,コミュニケーション範囲内のエージェント数に影響されたマルチエージェント群の後悔を導出し,エージェント間の効果的な情報交換を多エージェント学習方式に組み込むことが,最悪の場合におけるグループ後悔の軽減に寄与することを数学的に検証する。
最後に,MFBLに匹敵する試料効率でMA-PETSの優位性を実証的に示す。
関連論文リスト
- MAIDCRL: Semi-centralized Multi-Agent Influence Dense-CNN Reinforcement
Learning [0.7366405857677227]
エージェント・インフルエンス・マップ(AIM)によって強化された半集中型Dense Reinforcement Learningアルゴリズムを用いて,StarCraft Multi-Agent Challenge (SMAC) シナリオにおける効果的なマルチエージェント制御を学習する。
その結果,CNN対応MAIDCRLは学習性能を大幅に向上し,既存のMAIDRLと比較して学習速度が向上した。
論文 参考訳(メタデータ) (2024-02-12T18:53:20Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Taming Multi-Agent Reinforcement Learning with Estimator Variance
Reduction [12.94372063457462]
分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。
特定の状態における共同行動の単一のサンプルから学ぶことに依存しているため、これは重大な欠点に悩まされる。
本稿では,アクター・クリティカルなMARL法に対応する拡張ツールを提案する。
論文 参考訳(メタデータ) (2022-09-02T13:44:00Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Multi-Agent Adversarial Attacks for Multi-Channel Communications [24.576538640840976]
無線通信シナリオにおける敵をモデル化・解析するためのマルチエージェント・敵システム(MAAS)を提案する。
相手を学習エージェントとしてモデル化することにより,提案するMAASが,送信者戦略の事前知識を必要とせず,送信チャネルと割り当てされた各パワーを適切に選択可能であることを示す。
論文 参考訳(メタデータ) (2022-01-22T23:57:00Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。