Fugu-MT 論文翻訳(概要): Scalable spectral representations for multi-agent reinforcement learning in network MDPs

論文の概要: Scalable spectral representations for multi-agent reinforcement learning in network MDPs

arxiv url: http://arxiv.org/abs/2410.17221v2
Date: Mon, 18 Nov 2024 15:21:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.127048
Title: Scalable spectral representations for multi-agent reinforcement learning in network MDPs
Title（参考訳）: ネットワークMDPにおけるマルチエージェント強化学習のためのスケーラブルスペクトル表現
Authors: Zhaolin Ren, Runyu Zhang, Bo Dai, Na Li,
Abstract要約: マルチエージェント制御の一般的なモデルであるNetwork Markov Decision Processes (MDPs)は、効率的な学習に重大な課題をもたらす。まず、ネットワークMDPに対してスケーラブルなスペクトル局所表現を導出し、各エージェントの局所$Q$関数に対するネットワーク線形部分空間を誘導する。我々は,連続的な状態対応ネットワークMDPのためのスケーラブルなアルゴリズムフレームワークを設計し,アルゴリズムの収束をエンドツーエンドで保証する。
参考スコア（独自算出の注目度）: 13.782868855372774
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Network Markov Decision Processes (MDPs), a popular model for multi-agent control, pose a significant challenge to efficient learning due to the exponential growth of the global state-action space with the number of agents. In this work, utilizing the exponential decay property of network dynamics, we first derive scalable spectral local representations for network MDPs, which induces a network linear subspace for the local $Q$-function of each agent. Building on these local spectral representations, we design a scalable algorithmic framework for continuous state-action network MDPs, and provide end-to-end guarantees for the convergence of our algorithm. Empirically, we validate the effectiveness of our scalable representation-based approach on two benchmark problems, and demonstrate the advantages of our approach over generic function approximation approaches to representing the local $Q$-functions.
Abstract（参考訳）: マルチエージェント制御の一般的なモデルであるネットワークマルコフ決定プロセス(MDPs)は,エージェント数の増加に伴い,グローバルステートアクション空間の指数関数的成長により,効率的な学習に重要な課題を提起する。本研究では,ネットワーク力学の指数的減衰特性を利用して,まずネットワークMDPのスケーラブルなスペクトル局所表現を導出し,各エージェントの局所$Q$関数に対するネットワーク線形部分空間を誘導する。これらの局所スペクトル表現に基づいて、連続的な状態-作用ネットワークMDPのためのスケーラブルなアルゴリズムフレームワークを設計し、アルゴリズムの収束をエンドツーエンドで保証する。実験により、2つのベンチマーク問題に対するスケーラブルな表現ベースアプローチの有効性を検証し、局所的な$Q$関数を表現する汎用関数近似アプローチに対するアプローチの利点を実証する。

関連論文リスト

Structured Cooperative Multi-Agent Reinforcement Learning: a Bayesian Network Perspective [1.2515675707300356]
本研究では, モデルレス強化学習において, エージェント間結合における構造を有効活用するための体系的アプローチを提案する。 P-DTDEスキームに基づくマルチエージェントポリシー勾配定理を導出し,スケーラブルなアクター・クリティック・アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-10-11T00:29:55Z)
GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文参考訳（メタデータ） (2025-08-14T11:31:43Z)
Generative Diffusion Models for Resource Allocation in Wireless Networks [77.36145730415045]
我々は、専門家を模倣し、最適な分布から新しいサンプルを生成するポリシーを訓練する。生成したサンプルの逐次実行により,ほぼ最適性能を実現する。本稿では,マルチユーザ干渉ネットワークにおける電力制御のケーススタディとして数値的な結果を示す。
論文参考訳（メタデータ） (2025-04-28T21:44:31Z)
SINR-Aware Deep Reinforcement Learning for Distributed Dynamic Channel Allocation in Cognitive Interference Networks [10.514231683620517]
本稿では,複数の大規模ネットワークによるキャリヤ間干渉(ICI)とチャネル再利用を経験する実世界のシステムに焦点を当てる。 CARLTON(Channel Allocation RL To Overlapped Networks)と呼ばれる分散DCAのための新しいマルチエージェント強化学習フレームワークを提案する。本結果は,従来の最先端手法に比べて優れた効率性を示し,優れた性能とロバストな一般化を示した。
論文参考訳（メタデータ） (2024-02-17T20:03:02Z)
Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文参考訳（メタデータ） (2023-10-06T10:40:46Z)
Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文参考訳（メタデータ） (2023-09-12T13:03:47Z)
Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation [86.02485817444216]
マルチプロンプトアライメント(MPA: Multi-Prompt Alignment)は,マルチソースUDAのためのシンプルかつ効率的なフレームワークである。 MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構築されたプロンプトの合意を最大化することでそれらを調整する。実験によると、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。
論文参考訳（メタデータ） (2022-09-30T03:40:10Z)
Interpolation-based Correlation Reduction Network for Semi-Supervised Graph Learning [49.94816548023729]
補間型相関低減ネットワーク(ICRN)と呼ばれる新しいグラフコントラスト学習手法を提案する。提案手法では,決定境界のマージンを大きくすることで,潜在特徴の識別能力を向上させる。この2つの設定を組み合わせることで、豊富なラベル付きノードと稀に価値あるラベル付きノードから豊富な監視情報を抽出し、離散表現学習を行う。
論文参考訳（メタデータ） (2022-06-06T14:26:34Z)
Region-Based Semantic Factorization in GANs [67.90498535507106]
本稿では,任意の画像領域についてGAN(Generative Adversarial Networks)が学習した潜在意味を分解するアルゴリズムを提案する。適切に定義された一般化されたレイリー商を通して、アノテーションや訓練なしにそのような問題を解く。様々な最先端のGANモデルに対する実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2022-02-19T17:46:02Z)
Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。 SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文参考訳（メタデータ） (2021-12-15T09:50:25Z)
Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially Observable Environments [9.067091068256747]
本稿では,階層型グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。以上の技術に基づいて,Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと,SAC-HRGNというアクタクリティカルな変種を提案する。
論文参考訳（メタデータ） (2021-09-05T09:51:25Z)
Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文参考訳（メタデータ） (2021-06-30T16:49:07Z)
Multi-Source Domain Adaptation for Object Detection [52.87890831055648]
我々は、Divide-and-Merge Spindle Network (DMSN)と呼ばれる、より高速なR-CNNベースのフレームワークを提案する。 DMSNはドメイン非ネイティブを同時に強化し、識別力を維持することができる。擬似目標部分集合の最適パラメータを近似する新しい擬似学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2021-06-30T03:17:20Z)
Cooperative Multi-Agent Reinforcement Learning Based Distributed Dynamic Spectrum Access in Cognitive Radio Networks [46.723006378363785]
ダイナミックスペクトルアクセス(DSA)は、非効率的なスペクトル利用の問題を改善するための、有望なパラダイムである。本稿では,一般的な認知無線ネットワークにおけるマルチユーザに対する分散DSA問題について検討する。我々は、各認知ユーザに対する状態の部分的観測可能性に対処するために、DRQN(Deep Recurrent Q-network)を用いている。
論文参考訳（メタデータ） (2021-06-17T06:52:21Z)
Distributed Optimization, Averaging via ADMM, and Network Topology [0.0]
センサローカライゼーションの現実問題において,ネットワークトポロジと異なるアルゴリズムの収束率の関係について検討する。また、ADMMと持ち上げマルコフ連鎖の間の興味深い関係を示すとともに、その収束を明示的に特徴づける。
論文参考訳（メタデータ） (2020-09-05T21:44:39Z)
Scalable Multi-Agent Reinforcement Learning for Networked Systems with Average Reward [17.925681736096482]
マルチエージェント強化学習(MARL)が大きなスケーラビリティの問題に直面していることは長年認識されてきた。本稿では、モデルが局所的な依存構造を示し、スケーラブルな方法で解けるような、ネットワーク化されたMARL問題のリッチなクラスを同定する。
論文参考訳（メタデータ） (2020-06-11T17:23:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。