論文の概要: Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2601.12662v2
- Date: Sun, 25 Jan 2026 19:29:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 13:23:48.774638
- Title: Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks
- Title(参考訳): グラフニューラルネットワークを用いた推定誤差最小化のための分散学習手法
- Authors: Xingran Chen, Navid NaderiAlizadeh, Alejandro Ribeiro, Shirin Saeedi Bidokhti,
- Abstract要約: 無線ネットワークにおける自己回帰的マルコフ音源のリアルタイムサンプリングと推定について検討する。
政策最適化のためのグラフィカル強化学習フレームワークを提案する。
理論的には、提案したポリシーは転送可能であり、あるグラフ上で訓練されたポリシーを構造的に類似したグラフに効果的に適用することができる。
- 参考スコア(独自算出の注目度): 86.99017195607077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address real-time sampling and estimation of autoregressive Markovian sources in dynamic yet structurally similar multi-hop wireless networks. Each node caches samples from others and communicates over wireless collision channels, aiming to minimize time-average estimation error via decentralized policies. Due to the high dimensionality of action spaces and complexity of network topologies, deriving optimal policies analytically is intractable. To address this, we propose a graphical multi-agent reinforcement learning framework for policy optimization. Theoretically, we demonstrate that our proposed policies are transferable, allowing a policy trained on one graph to be effectively applied to structurally similar graphs. Numerical experiments demonstrate that (i) our proposed policy outperforms state-of-the-art baselines; (ii) the trained policies are transferable to larger networks, with performance gains increasing with the number of agents; (iii) the graphical training procedure withstands non-stationarity, even when using independent learning techniques; and (iv) recurrence is pivotal in both independent learning and centralized training and decentralized execution, and improves the resilience to non-stationarity.
- Abstract(参考訳): 動的だが構造的に類似したマルチホップ無線ネットワークにおける自己回帰的マルコフ源のリアルタイムサンプリングと推定に対処する。
各ノードは、他のノードからのサンプルをキャッシュし、無線の衝突チャネルを介して通信する。
行動空間の高次元性とネットワークトポロジの複雑さのため、最適ポリシーを解析的に導出することは困難である。
そこで本稿では,ポリシー最適化のためのグラフィカルなマルチエージェント強化学習フレームワークを提案する。
理論的には、提案したポリシーは転送可能であり、あるグラフ上で訓練されたポリシーを構造的に類似したグラフに効果的に適用できることを示す。
数値実験は
(i)提案された政策は、最先端の基準線を上回ります。
(ii) 訓練されたポリシーは、エージェントの数に応じてパフォーマンスが向上し、より大きなネットワークに転送可能である。
三 独立学習技術を用いた場合であっても、非定常性に耐える図式訓練方法
(iv) 再発は、独立学習と集中訓練、分散実行の両方において重要であり、非定常性に対するレジリエンスを向上させる。
関連論文リスト
- Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step
Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。
本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文 参考訳(メタデータ) (2022-08-01T11:33:12Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。