論文の概要: Learning Decentralized Routing Policies via Graph Attention-based Multi-Agent Reinforcement Learning in Lunar Delay-Tolerant Networks
- arxiv url: http://arxiv.org/abs/2510.20436v1
- Date: Thu, 23 Oct 2025 11:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.82016
- Title: Learning Decentralized Routing Policies via Graph Attention-based Multi-Agent Reinforcement Learning in Lunar Delay-Tolerant Networks
- Title(参考訳): グラフ注意に基づくマルチエージェント強化学習による遅延耐性ネットワークにおける分散ルーティングポリシーの学習
- Authors: Federico Lozano-Cuadra, Beatriz Soret, Marc Sanchez Net, Abhishek Cauligi, Federico Rossi,
- Abstract要約: 我々は,Lunar Delay-Tolerant Network (LDTN) の制約下で動作するマルチロボット探査ミッションのための,完全に分散化されたルーティングフレームワークを提案する。
本稿では、部分観測可能なマルコフ決定問題(POMDP)として問題を定式化し、強化訓練、分散実行(CTDE)を行うグラフ注意に基づくマルチエージェント強化学習(GAT-MARL)政策を提案する。
本手法は局所的な観測のみに依存し,最短経路や制御されたフラッディングベースアルゴリズムのような古典的アプローチとは異なり,グローバルなトポロジ更新やパケット複製を必要としない。
- 参考スコア(独自算出の注目度): 4.030873682988143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a fully decentralized routing framework for multi-robot exploration missions operating under the constraints of a Lunar Delay-Tolerant Network (LDTN). In this setting, autonomous rovers must relay collected data to a lander under intermittent connectivity and unknown mobility patterns. We formulate the problem as a Partially Observable Markov Decision Problem (POMDP) and propose a Graph Attention-based Multi-Agent Reinforcement Learning (GAT-MARL) policy that performs Centralized Training, Decentralized Execution (CTDE). Our method relies only on local observations and does not require global topology updates or packet replication, unlike classical approaches such as shortest path and controlled flooding-based algorithms. Through Monte Carlo simulations in randomized exploration environments, GAT-MARL provides higher delivery rates, no duplications, and fewer packet losses, and is able to leverage short-term mobility forecasts; offering a scalable solution for future space robotic systems for planetary exploration, as demonstrated by successful generalization to larger rover teams.
- Abstract(参考訳): 本稿では,Lunar Delay-Tolerant Network (LDTN) の制約下で動作するマルチロボット探査ミッションのための,完全に分散化されたルーティングフレームワークを提案する。
この設定では、自律ローバーは、間欠的な接続と未知の移動パターンの下で収集したデータをランダーに中継する必要がある。
本稿では,この問題を部分観測可能なマルコフ決定問題 (POMDP) として定式化し,集中学習,分散実行 (CTDE) を行うグラフ注意に基づくマルチエージェント強化学習 (GAT-MARL) 政策を提案する。
本手法は局所的な観測のみに依存し,最短経路や制御されたフラッディングベースアルゴリズムのような古典的アプローチとは異なり,グローバルなトポロジ更新やパケット複製を必要としない。
ランダムな探査環境でのモンテカルロシミュレーションを通じて、GAT-MARLはより高いデリバリ率、重複なし、パケット損失が少ないことを提供し、短期的なモビリティ予測を活用でき、将来の宇宙ロボットシステムの惑星探査のためのスケーラブルなソリューションを提供する。
関連論文リスト
- Accelerating Privacy-Preserving Federated Learning in Large-Scale LEO Satellite Systems [57.692181589325116]
大規模な低地球軌道(LEO)衛星システムは、高速かつ広範囲のデータ交換を可能にする能力によって、ますます価値が高まっている。
プライバシー上の懸念と規制上の制約のため、リモートクライアントで収集された生データを集中的に集約することはできない。
フェデレーション学習は、分散デバイス上でローカルモデルをトレーニングし、モデルパラメータのみを交換することで、プライバシ保護の代替手段を提供する。
本稿では,コミュニケーションリソースを動的に割り当て,フェデレート学習を高速化する,離散時間グラフに基づくオンデマンドスケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-05T03:33:42Z) - Consensus-based Decentralized Multi-agent Reinforcement Learning for Random Access Network Optimization [10.232557034642015]
我々は、衝突を最小限に抑え、デバイス間の通信の公平性を確保するために、効率的なランダムアクセス媒体アクセス制御プロトコルを設計する。
提案するMARLアルゴリズムは,他のベースラインと比較してRAネットワーク性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2025-08-09T14:39:27Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Learning Decentralized Traffic Signal Controllers with Multi-Agent Graph
Reinforcement Learning [42.175067773481416]
我々は,空間的時間的相関を捉えるために,環境観測性を改善した新しい分散制御アーキテクチャを設計する。
具体的には,道路ネットワークに収集された非構造データから相関関連情報を抽出するトポロジ対応情報集約戦略を開発する。
拡散畳み込みモジュールが開発され、新しいMARLアルゴリズムが作成され、エージェントにグラフ学習の能力を与える。
論文 参考訳(メタデータ) (2023-11-07T06:43:15Z) - Flexible Payload Configuration for Satellites using Machine Learning [33.269035910233704]
現在のGEOシステムは、周波数使用率の少ないマルチビームフットプリントを用いて、ビームに電力と帯域幅を均一に分散している。
近年の研究では、不均一な交通シナリオにおけるこのアプローチの限界が明らかにされており、非効率性につながっている。
本稿では、無線リソース管理(RRM)に対する機械学習(ML)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:45:17Z) - Decentralized Federated Reinforcement Learning for User-Centric Dynamic
TFDD Control [37.54493447920386]
非対称かつ不均一なトラフィック要求を満たすための学習に基づく動的時間周波数分割二重化(D-TFDD)方式を提案する。
分散化された部分観測可能なマルコフ決定過程(Dec-POMDP)として問題を定式化する。
本稿では,グローバルリソースを分散的に最適化するために,Wolpertinger Deep Deterministic Policy gradient (FWDDPG)アルゴリズムという,連合強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-04T07:39:21Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Multi-UAV Path Planning for Wireless Data Harvesting with Deep
Reinforcement Learning [18.266087952180733]
本稿では,データ収集ミッションを定義するシナリオパラメータの深い変化に適応できるマルチエージェント強化学習(MARL)手法を提案する。
提案するネットワークアーキテクチャにより,データ収集タスクを慎重に分割することで,エージェントが効果的に協調できることを示す。
論文 参考訳(メタデータ) (2020-10-23T14:59:30Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。