論文の概要: Scaling up Energy-Aware Multi-Agent Reinforcement Learning for Mission-Oriented Drone Networks with Individual Reward
- arxiv url: http://arxiv.org/abs/2605.24992v1
- Date: Sun, 24 May 2026 10:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.636875
- Title: Scaling up Energy-Aware Multi-Agent Reinforcement Learning for Mission-Oriented Drone Networks with Individual Reward
- Title(参考訳): 個別リワード型ミッション指向ドローンネットワークにおけるエネルギーを考慮したマルチエージェント強化学習のスケールアップ
- Authors: Changling Li, Ying Li,
- Abstract要約: マルチエージェント強化学習(MARL)は、自律運転やスマートシティといった協調システムに適用可能である。
動的環境と限られたバッテリ容量は、効率的な協調的なタスク実行を実現するためにMARLを使用することが依然として困難である。
これらの課題に対処するために,エネルギーを考慮したMARLモデルを提案する。
- 参考スコア(独自算出の注目度): 4.3133427394658534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) has shown wide applicability in collaborative systems such as autonomous driving and smart cities for its ability of learning through interaction. With the recent development of drone networks, researchers have also applied MARL to address the trajectory planning problems. However, the dynamic environment and the limited battery capacity are still challenging for using MARL to achieve efficient collaborative task execution. In this paper, we propose an energy-aware MARL model as an attempt to tackle these challenges, leveraging Deep Q-Networks (DQN) with \emph{individual reward functions} driven by the task execution progress and the remaining battery of drones. We conduct a set of simulation studies for the proposed mode and compare it with the shared reward MARL~\cite{Li2022MARL} to explore the impact of credit assignment in MARL. The results indicate that our proposed model can achieve at least 80\% success rate regardless of the task locations and lengths. Similar to the shared reward mode, the individual reward mode can achieve a better success rate when the task density is high, and it can hit nearly a 100\% success rate when task density gets close to 40\%. The true advantage of our proposed model with individual reward is revealed when scaling up the environment. The comparison to the shared reward MARL shows that the our proposed model is more robust towards the change of the environment size and agent numbers. It can achieve higher success rate with fewer steps due to the clarity of the goal which improves energy efficiency even better.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、自律運転やスマートシティといった協調システムにおいて、インタラクションを通じて学習する能力に幅広い適用性を示している。
近年のドローンネットワークの発展に伴い、研究者らはMARLを軌道計画問題にも適用した。
しかし,MARLを効率よく協調的なタスク実行を実現するためには,動的環境とバッテリー容量の制限が依然として困難である。
本稿では,これらの課題に対処するためのエネルギーを考慮したMARLモデルを提案し,タスク実行の進行とドローンの残りのバッテリーによって駆動される「emph{individual reward function"」をDeep Q-Networks(DQN)に活用する。
提案モードのシミュレーション実験を行い,共有報酬MARL~\cite{Li2022MARL}と比較し,MARLにおけるクレジット割り当ての影響について検討する。
その結果,提案モデルでは,タスクの位置や長さに関わらず,少なくとも80%の成功率が得られることがわかった。
共有報酬モードと同様に、個々の報酬モードはタスク密度が高いときにより良い成功率を達成することができ、タスク密度が40倍近くになると100倍近い成功率に達することができる。
提案手法の真の利点は, 環境のスケールアップにおいて, 個々の報酬を伴うモデルを明らかにすることである。
共有報酬MARLとの比較により,提案手法は環境サイズやエージェント数の変化に対してより堅牢であることが示された。
エネルギー効率をさらに向上させる目標を明確にするため、より少ないステップでより高い成功率を達成することができる。
関連論文リスト
- Grounded World Model for Semantically Generalizable Planning [94.53923128709965]
我々は、視覚言語対応の潜在空間において、グラウンドドワールドモデル(GWM)を学習する。
提案された各アクションは、タスク命令に対する将来の結果がどの程度近いかに基づいてスコアされる。
提案したWISERベンチマークでは、GWM-MPCはテストセットで87%の成功率を達成した。
論文 参考訳(メタデータ) (2026-04-13T17:25:41Z) - Adaptive Milestone Reward for GUI Agents [38.548364518806046]
本稿では,Adaptive Milestone Reward (ADMIRE) 機構を提案する。
ADMIREは、軌道をマイルストーンに固定することで、検証可能な適応的な報酬システムを構築する。
実験によると、ADMIREは成功率において10%以上の絶対的な改善をもたらす。
論文 参考訳(メタデータ) (2026-02-12T03:31:40Z) - MIR: Efficient Exploration in Episodic Multi-Agent Reinforcement Learning via Mutual Intrinsic Reward [14.959716217301368]
本稿では,強化学習のための簡易かつ効果的な強化戦略であるMIRを紹介する。
MIRは、個々のエージェントに対して、チームメイトに影響を与えるアクションを探求するインセンティブを与え、元の戦略と組み合わせることで、チームの探索を効果的に刺激し、アルゴリズムのパフォーマンスを改善する。
評価式は,MiniGrid-MA設定における最先端手法に対する提案手法と比較し,優れたPerfor-manceを示す実験結果と比較した。
論文 参考訳(メタデータ) (2025-11-21T11:32:28Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Energy-Aware Multi-Agent Reinforcement Learning for Collaborative Execution in Mission-Oriented Drone Networks [3.4918110778972458]
ミッション指向ドローンネットワークは、構造検査、災害監視、国境監視などに広く利用されている。
ドローンのバッテリ容量が限られているため、ミッション実行戦略はネットワークの性能とミッション完了に影響を及ぼす。
本研究では,マルチエージェント強化学習(MARL)を活用し,その課題を管理する。
論文 参考訳(メタデータ) (2024-10-29T22:43:26Z) - World Models with Hints of Large Language Models for Goal Achieving [56.91610333715712]
強化学習は、長期のタスクやスパース目標に直面して苦労する。
人間の認知にインスパイアされた新しいマルチモーダルモデルベースRLアプローチDreaming with Large Language Models (M.DLL.M)を提案する。
論文 参考訳(メタデータ) (2024-06-11T15:49:08Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - AIIR-MIX: Multi-Agent Reinforcement Learning Meets Attention Individual
Intrinsic Reward Mixing Network [2.057898896648108]
協調型マルチエージェント強化学習(MARL)において、各エージェントの貢献を減らし、それに対応する報酬を割り当てることは重要な問題である。
従来の研究では、本質的な報酬関数を設計することで問題を解決しようとするが、本質的な報酬は単に要約による環境報酬と組み合わせられる。
本稿では,MARLにおける個別固有逆混合ネットワーク(AIIR-mix)を提案する。
論文 参考訳(メタデータ) (2023-02-19T10:25:25Z) - PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。
本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。
論文 参考訳(メタデータ) (2020-06-01T12:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。