論文の概要: Neural Index Policies for Restless Multi-Action Bandits with Heterogeneous Budgets
- arxiv url: http://arxiv.org/abs/2510.22069v1
- Date: Fri, 24 Oct 2025 23:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.492239
- Title: Neural Index Policies for Restless Multi-Action Bandits with Heterogeneous Budgets
- Title(参考訳): 不均質な予算を伴うレスレスト・マルチアクション・バンドに対するニューラル・インデックス・ポリシー
- Authors: Himadri S. Pandey, Kai Wang, Gian-Gabriel P. Garcia,
- Abstract要約: ヘテロジニアスな予算制約を持つマルチアクションRMABに対するニューラルインデックスポリシー(NIP)を導入する。
NIPは、インデックス予測と制約付き最適化を単一のエンドツーエンドの差別化フレームワークに統合する。
経験的に、NIPは、占有するオラクル対策の5%で、ほぼ最適性能を達成する。
- 参考スコア(独自算出の注目度): 2.9059410824803655
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Restless multi-armed bandits (RMABs) provide a scalable framework for sequential decision-making under uncertainty, but classical formulations assume binary actions and a single global budget. Real-world settings, such as healthcare, often involve multiple interventions with heterogeneous costs and constraints, where such assumptions break down. We introduce a Neural Index Policy (NIP) for multi-action RMABs with heterogeneous budget constraints. Our approach learns to assign budget-aware indices to arm--action pairs using a neural network, and converts them into feasible allocations via a differentiable knapsack layer formulated as an entropy-regularized optimal transport (OT) problem. The resulting model unifies index prediction and constrained optimization in a single end-to-end differentiable framework, enabling gradient-based training directly on decision quality. The network is optimized to align its induced occupancy measure with the theoretical upper bound from a linear programming relaxation, bridging asymptotic RMAB theory with practical learning. Empirically, NIP achieves near-optimal performance within 5% of the oracle occupancy-measure policy while strictly enforcing heterogeneous budgets and scaling to hundreds of arms. This work establishes a general, theoretically grounded, and scalable framework for learning index-based policies in complex resource-constrained environments.
- Abstract(参考訳): Restless Multi-armed bandits (RMAB)は、不確実性の下でのシーケンシャルな意思決定のためのスケーラブルなフレームワークを提供するが、古典的な定式化はバイナリアクションと単一のグローバル予算を前提としている。
医療のような現実世界の設定は、しばしば不均一なコストと制約に対する複数の介入を伴い、そのような仮定が崩壊する。
ヘテロジニアスな予算制約を持つマルチアクションRMABに対するニューラルインデックスポリシー(NIP)を導入する。
提案手法では,ニューラルネットワークを用いてアームアクションペアに予算対応指標を割り当て,エントロピー規則化された最適輸送(OT)問題として定式化された微分可能なknapsack層を介して実現可能なアロケーションに変換する。
結果として得られるモデルは、インデックス予測と制約付き最適化を単一のエンドツーエンドの差別化可能なフレームワークに統合し、決定品質を直接グラデーションベースのトレーニングを可能にする。
このネットワークは、線形プログラミング緩和による理論上界と共役し、漸近的RMAB理論を実践的な学習と結び付けるように最適化されている。
経験的に、NIPは、異質な予算を厳格に実施し、数百の武器にスケーリングしながら、オラクル占有率政策の5%以内の最適性能を達成する。
この研究は、複雑なリソース制約のある環境でインデックスベースのポリシーを学習するための、一般的な、理論的に基礎付けられた、スケーラブルなフレームワークを確立する。
関連論文リスト
- Multi-Task Vehicle Routing Solver via Mixture of Specialized Experts under State-Decomposable MDP [57.28979643999352]
本稿では,VRPの変種間で共有成分の性質を認識可能な統合解法フレームワークを提案する。
状態空間を基底状態空間のカルテアン積として表現することにより、VRPを再構成する状態分解型MDP(SDMDP)を導入する。
The Latent Space-based SDMDP extension is developed by the both the optimal basis policy and a learnable mix function。
論文 参考訳(メタデータ) (2025-10-24T13:31:31Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。
我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-03T02:56:26Z) - Robust Offline Reinforcement Learning with Linearly Structured $f$-Divergence Regularization [10.465789490644031]
我々は、ロバストな正則化マルコフ決定プロセスのための新しいフレームワーク(d$-RRMDP)を提案する。
オフラインRL設定のために、ロバスト正規化悲観的値イテレーション(R2PVI)と呼ばれるアルゴリズム群を開発する。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z) - Achieving $\tilde{\mathcal{O}}(1/N)$ Optimality Gap in Restless Bandits through Gaussian Approximation [21.34216861973257]
有限水平Multiform Armed Bandit (RMAB) 問題を$N$等質アームを用いて検討する。
我々のアプローチは、平均だけでなくRMAB力学の分散も捉えるガウス系の構築に基づいている。
これは、RMABを退化させるための$tildemathcalO (1/N)$Optimity gapを確立する最初の結果である。
論文 参考訳(メタデータ) (2024-10-19T06:29:18Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Implicit Generative Prior for Bayesian Neural Networks [8.013264410621357]
複雑なデータ構造のための新しいニューラルネットワーク型経験ベイズ(NA-EB)フレームワークを提案する。
NA-EBフレームワークは変分推論と勾配上昇アルゴリズムを組み合わせたものである。
各種タスクの広範囲な評価を通じて,本フレームワークの実践的応用を実証する。
論文 参考訳(メタデータ) (2024-04-27T21:00:38Z) - Beyond Reverse KL: Generalizing Direct Preference Optimization with
Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。
RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。
DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。
Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文 参考訳(メタデータ) (2023-09-28T08:29:44Z) - Quantization for decentralized learning under subspace constraints [61.59416703323886]
エージェントがサブスペース制約を最小化するために個々のコスト関数を持つ分散最適化問題を考察する。
本稿では,エージェントが確率化量子化器を用いて推定値を圧縮する適応分散型戦略を提案し,検討する。
この分析は、量子化ノイズのいくつかの一般的な条件下では、平均二乗誤差と平均ビットレートの両方で戦略が安定であることを示している。
論文 参考訳(メタデータ) (2022-09-16T09:38:38Z) - Neural-Progressive Hedging: Enforcing Constraints in Reinforcement
Learning with Stochastic Programming [8.942831966541231]
本稿では、強化学習(RL)ポリシーを実行するオンラインフェーズにおいて、プログラミングを活用するフレームワークを提案する。
目的は、条件付きバリュー・アット・リスク(CVaR)のような制約やリスクベースの目標に対する実現性を確保することである。
NPフレームワークは、深いRLや他のベースラインアプローチよりも優れたポリシーを生成することを示す。
論文 参考訳(メタデータ) (2022-02-27T19:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。