論文の概要: Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2601.12662v2
- Date: Sun, 25 Jan 2026 19:29:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 13:23:48.774638
- Title: Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks
- Title(参考訳): グラフニューラルネットワークを用いた推定誤差最小化のための分散学習手法
- Authors: Xingran Chen, Navid NaderiAlizadeh, Alejandro Ribeiro, Shirin Saeedi Bidokhti,
- Abstract要約: 無線ネットワークにおける自己回帰的マルコフ音源のリアルタイムサンプリングと推定について検討する。
政策最適化のためのグラフィカル強化学習フレームワークを提案する。
理論的には、提案したポリシーは転送可能であり、あるグラフ上で訓練されたポリシーを構造的に類似したグラフに効果的に適用することができる。
- 参考スコア(独自算出の注目度): 86.99017195607077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address real-time sampling and estimation of autoregressive Markovian sources in dynamic yet structurally similar multi-hop wireless networks. Each node caches samples from others and communicates over wireless collision channels, aiming to minimize time-average estimation error via decentralized policies. Due to the high dimensionality of action spaces and complexity of network topologies, deriving optimal policies analytically is intractable. To address this, we propose a graphical multi-agent reinforcement learning framework for policy optimization. Theoretically, we demonstrate that our proposed policies are transferable, allowing a policy trained on one graph to be effectively applied to structurally similar graphs. Numerical experiments demonstrate that (i) our proposed policy outperforms state-of-the-art baselines; (ii) the trained policies are transferable to larger networks, with performance gains increasing with the number of agents; (iii) the graphical training procedure withstands non-stationarity, even when using independent learning techniques; and (iv) recurrence is pivotal in both independent learning and centralized training and decentralized execution, and improves the resilience to non-stationarity.
- Abstract(参考訳): 動的だが構造的に類似したマルチホップ無線ネットワークにおける自己回帰的マルコフ源のリアルタイムサンプリングと推定に対処する。
各ノードは、他のノードからのサンプルをキャッシュし、無線の衝突チャネルを介して通信する。
行動空間の高次元性とネットワークトポロジの複雑さのため、最適ポリシーを解析的に導出することは困難である。
そこで本稿では,ポリシー最適化のためのグラフィカルなマルチエージェント強化学習フレームワークを提案する。
理論的には、提案したポリシーは転送可能であり、あるグラフ上で訓練されたポリシーを構造的に類似したグラフに効果的に適用できることを示す。
数値実験は
(i)提案された政策は、最先端の基準線を上回ります。
(ii) 訓練されたポリシーは、エージェントの数に応じてパフォーマンスが向上し、より大きなネットワークに転送可能である。
三 独立学習技術を用いた場合であっても、非定常性に耐える図式訓練方法
(iv) 再発は、独立学習と集中訓練、分散実行の両方において重要であり、非定常性に対するレジリエンスを向上させる。
関連論文リスト
- Differentiable Discrete Event Simulation for Queuing Network Control [7.965453961211742]
キューのネットワーク制御は、高い性、大きな状態とアクション空間、安定性の欠如など、異なる課題を生んでいる。
本稿では,異なる離散イベントシミュレーションに基づくポリシー最適化のためのスケーラブルなフレームワークを提案する。
本手法は,非定常環境で動作するシステムなど,現実的なシナリオを柔軟に処理することができる。
論文 参考訳(メタデータ) (2024-09-05T17:53:54Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step
Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。
本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文 参考訳(メタデータ) (2022-08-01T11:33:12Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Model-Free Learning of Optimal Deterministic Resource Allocations in
Wireless Systems via Action-Space Exploration [4.721069729610892]
本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。
提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
論文 参考訳(メタデータ) (2021-08-23T18:26:16Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。