論文の概要: Networked Restless Multi-Arm Bandits with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.06274v1
- Date: Sat, 06 Dec 2025 03:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.279117
- Title: Networked Restless Multi-Arm Bandits with Reinforcement Learning
- Title(参考訳): 強化学習を用いたネットワークレスマルチアームバンド
- Authors: Hanmo Zhang, Zenghui Sun, Kai Wang,
- Abstract要約: 本稿では,RMABモデルと独立カスケードモデルを統合する新しいフレームワークであるNetworked RMABを紹介する。
指数関数的に大きな作用と状態空間による計算課題を示す。
ネットワーク設定に適した効率的なQ-ラーニングアルゴリズムを開発することにより,これらの結果を実験的に検証する。
- 参考スコア(独自算出の注目度): 4.0539039756740785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Restless Multi-Armed Bandits (RMABs) are a powerful framework for sequential decision-making, widely applied in resource allocation and intervention optimization challenges in public health. However, traditional RMABs assume independence among arms, limiting their ability to account for interactions between individuals that can be common and significant in a real-world environment. This paper introduces Networked RMAB, a novel framework that integrates the RMAB model with the independent cascade model to capture interactions between arms in networked environments. We define the Bellman equation for networked RMAB and present its computational challenge due to exponentially large action and state spaces. To resolve the computational challenge, we establish the submodularity of Bellman equation and apply the hill-climbing algorithm to achieve a $1-\frac{1}{e}$ approximation guarantee in Bellman updates. Lastly, we prove that the approximate Bellman updates are guaranteed to converge by a modified contraction analysis. We experimentally verify these results by developing an efficient Q-learning algorithm tailored to the networked setting. Experimental results on real-world graph data demonstrate that our Q-learning approach outperforms both $k$-step look-ahead and network-blind approaches, highlighting the importance of capturing and leveraging network effects where they exist.
- Abstract(参考訳): Restless Multi-Armed Bandits (RMAB) はシーケンシャルな意思決定のための強力なフレームワークであり、公衆衛生における資源配分と介入最適化の課題に広く応用されている。
しかし、伝統的なRMABは武器間の独立を前提としており、現実の環境では一般的で重要な個人間の相互作用を考慮できる能力を制限する。
本稿では、RMABモデルと独立カスケードモデルを統合する新しいフレームワークであるNetworked RMABを紹介する。
我々は、ネットワーク化されたRMABに対するベルマン方程式を定義し、指数関数的に大きな作用と状態空間による計算課題を示す。
計算課題を解決するため,ベルマン方程式の準モジュラリティを確立し,ヒルクライミングアルゴリズムを適用してベルマン更新における1-\frac{1}{e}$近似を保証する。
最後に、ベルマンの近似的な更新は、修正された収縮解析によって収束することが保証されることを示す。
ネットワーク設定に適した効率的なQ-ラーニングアルゴリズムを開発することにより,これらの結果を実験的に検証する。
実世界のグラフデータによる実験結果から、Q-learningアプローチは、$k$-step look-ahead と network-blind の両方で優れており、ネットワーク効果のキャプチャと活用の重要性を強調している。
関連論文リスト
- Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - A Federated Online Restless Bandit Framework for Cooperative Resource Allocation [23.698976872351576]
MRPの未知系力学を用いた協調資源配分問題について検討する。
我々は、このマルチエージェントオンラインRMAB問題を解決するために、フェデレートトンプソン対応Whittle Index(FedTSWI)アルゴリズムを作成した。
数値計算の結果,提案アルゴリズムは,ベースラインと比較して,$mathcalO(sqrtTlog(T))$の高速収束率と性能の向上を実現している。
論文 参考訳(メタデータ) (2024-06-12T08:34:53Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Free from Bellman Completeness: Trajectory Stitching via Model-based
Return-conditioned Supervised Learning [22.287106840756483]
本稿では,リターン条件付き教師あり学習(RCSL)に基づく非政治的学習技術が,ベルマン完全性の課題を回避することができることを示す。
本稿では,MBRCSL と呼ばれる単純なフレームワークを提案し,RCSL の手法により動的プログラミングにより,異なるトラジェクトリのセグメントを縫合することを可能にする。
論文 参考訳(メタデータ) (2023-10-30T07:03:14Z) - Networked Restless Multi-Armed Bandits for Mobile Interventions [41.74987432512137]
ネットワーク効果を考慮したレスレスマルチアームバンディット(RMAB)について検討した。
我々のモデルでは、アームは部分的にリチャージされ、グラフを介して接続されているため、一方のアームを引っ張ることで、隣接するアームの状態も改善される。
RMABのネットワーク効果は,既存の解法では考慮されていない強い報酬結合を誘導することを示す。
論文 参考訳(メタデータ) (2022-01-28T20:38:01Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。