論文の概要: Restless Bandits with Individual Penalty Constraints: A New Near-Optimal Index Policy and How to Learn It
- arxiv url: http://arxiv.org/abs/2604.04101v1
- Date: Sun, 05 Apr 2026 12:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.920808
- Title: Restless Bandits with Individual Penalty Constraints: A New Near-Optimal Index Policy and How to Learn It
- Title(参考訳): 個別の罰則を持つレストレスバンド:新しい準最適指標ポリシーと学習方法
- Authors: Nida Zamir, I-Hong Hou,
- Abstract要約: 本稿では,無線ネットワーク環境における資源割り当て問題に対処するため,個別のペナルティ制約下でのRestless Multi-Armed Bandit (RMAB) フレームワークについて検討する。
従来のRMABモデルとは異なり、我々のモデルでは、各ユーザー(アーム)がエネルギー制限、アクティベーション制限、情報量最小化などの厳密な性能制約を課すことができる。
最適な資源配分ポリシを見つけるために,POW(Pinalty-Optimal Whittle)インデックスポリシを提案する。
- 参考スコア(独自算出の注目度): 8.559763606620937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the Restless Multi-Armed Bandit (RMAB) framework under individual penalty constraints to address resource allocation challenges in dynamic wireless networked environments. Unlike conventional RMAB models, our model allows each user (arm) to have distinct and stringent performance constraints, such as energy limits, activation limits, or age of information minimums, enabling the capture of diverse objectives including fairness and efficiency. To find the optimal resource allocation policy, we propose a new Penalty-Optimal Whittle (POW) index policy. The POW index of an user only depends on the user's transition kernel and penalty constraints, and remains invariable to system-wide features such as the number of users present and the amount of resource available. This makes it computationally tractable to calculate the POW Indices offline without any need for online adaptation. Moreover, we theoretically prove that the POW index policy is asymptotically optimal while satisfying all individual penalty constraints. We also introduce a deep reinforcement learning algorithm to efficiently learn the POW index on the fly. Simulation results across various applications and system configurations further demonstrate that the POW index policy not only has near-optimal performance but also significantly outperforms other existing policies.
- Abstract(参考訳): 本稿では、動的無線ネットワーク環境におけるリソース割り当て問題に対処するため、個別のペナルティ制約下でのRMAB(Resless Multi-Armed Bandit)フレームワークについて検討する。
従来のRMABモデルとは異なり、我々のモデルでは、各ユーザー(アーム)がエネルギー制限、アクティベーション制限、情報量最小化といった厳密な性能制約を課すことができ、公平性や効率性を含む様々な目的を捉えることができる。
最適な資源配分ポリシを見つけるために,POW(Pinalty-Optimal Whittle)インデックスポリシを提案する。
ユーザのPOWインデックスは、ユーザのトランジションカーネルとペナルティ制約にのみ依存する。
これにより、オンライン適応を必要とせずに、POWインデックスをオフラインで計算することができる。
さらに、POWインデックスポリシーが漸近的に最適であり、個々のペナルティ制約をすべて満たしていることを理論的に証明する。
また,POWインデックスを効率よく学習する深層強化学習アルゴリズムも導入した。
さらに、様々なアプリケーションやシステム構成のシミュレーション結果から、POWインデックスポリシーが最適に近い性能を持つだけでなく、既存のポリシーよりも大幅に優れていることが示される。
関連論文リスト
- Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - Deep Index Policy for Multi-Resource Restless Matching Bandit and Its Application in Multi-Channel Scheduling [6.648181286553698]
異種資源システムのためのマルチリソースレスマッチングバンディット(MR-RMB)モデルについて論じる。
MR-RMBに適したオンライン学習アルゴリズムであるDeep Index Policy(DIP)を導入する。
シミュレーションの結果,DIPが効率よく部分指数を学習できることが示唆された。
論文 参考訳(メタデータ) (2024-08-13T21:24:14Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Deep Reinforcement Learning for Inventory Networks: Toward Reliable Policy Optimization [2.9016349714298157]
我々は、在庫管理が深層強化学習(DRL)の信頼性向上にユニークな機会をもたらすと論じている。
1つ目はHendsight Differentiable Policy Optimization (HDPO)であり、これはオフラインのカウンターファクトシミュレーションからパスワイズ勾配を用いてポリシー性能を直接かつ効率的に最適化する。
グラフニューラルネットワーク(GNN)を,サプライチェーン構造を符号化する自然な帰納バイアスとして利用し,最適かつほぼ最適なポリシを2つの理論的設定で表現できること,および6つの多様な在庫問題におけるデータ要求の低減を実証的に示す。
論文 参考訳(メタデータ) (2023-06-20T02:58:25Z) - Indexability is Not Enough for Whittle: Improved, Near-Optimal
Algorithms for Restless Bandits [30.532795983761314]
本研究では,複数の行動を伴うレスレス・マルチアーム・バンディット(RMAB)の計画問題について検討する。
まず、Whittleインデックスポリシーは、シンプルで実用的な設定で失敗する可能性があることを示す。
次に,平均場法に基づく代替計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-31T19:35:15Z) - Learning Resilient Radio Resource Management Policies with Graph Neural
Networks [124.89036526192268]
我々は、ユーザ当たりの最小容量制約でレジリエントな無線リソース管理問題を定式化する。
有限個のパラメータ集合を用いてユーザ選択と電力制御ポリシーをパラメータ化できることを示す。
このような適応により,提案手法は平均レートと5番目のパーセンタイルレートとの良好なトレードオフを実現する。
論文 参考訳(メタデータ) (2022-03-07T19:40:39Z) - DNN-based Policies for Stochastic AC OPF [7.551130027327462]
最適電力フロー(SOPF)の定式化は、不確実性の下で実現可能性を維持するためのディスパッチ決定と制御ポリシーを計算することによって不確実性を処理するメカニズムを提供する。
我々は、不確実性に応じてジェネレータのディスパッチ決定を予測するディープニューラルネットワーク(DNN)ベースのポリシーを策定した。
より単純な政策に対するDNNポリシーの利点と、安全限界を強制し、ほぼ最適な解決策を生み出す上での有効性を実証した。
論文 参考訳(メタデータ) (2021-12-04T22:26:27Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。