論文の概要: Optimal Policy Learning under Budget and Coverage Constraints
- arxiv url: http://arxiv.org/abs/2605.12235v1
- Date: Tue, 12 May 2026 15:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.948572
- Title: Optimal Policy Learning under Budget and Coverage Constraints
- Title(参考訳): 予算・包括的制約下における最適政策学習
- Authors: Giovanni Cerulli,
- Abstract要約: 予算と最小限の制約による最適政策学習について検討する。
この問題はクナプサック型構造を許容し,アフィンしきい値規則によって最適ポリシーを特徴付けることができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study optimal policy learning under combined budget and minimum coverage constraints. We show that the problem admits a knapsack-type structure and that the optimal policy can be characterized by an affine threshold rule involving both budget and coverage shadow prices. We establish that the linear programming relaxation of the combinatorial solution has an O(1) integrality gap, implying asymptotic equivalence with the optimal discrete allocation. Building on this result, we analyze two implementable approaches: a Greedy-Lagrangian (GLC) and a rank-and-cut (RC) algorithm. We show that the GLC closely approximates the optimal solution and achieves near-optimal performance in finite samples. By contrast, RC is approximately optimal whenever the coverage constraint is slack or costs are homogeneous, while misallocation arises only when cost heterogeneity interacts with a binding coverage constraint. Monte Carlo evidence supports these findings.
- Abstract(参考訳): 予算と最小限の制約による最適政策学習について検討する。
そこで本研究では,knapsack型構造を許容し,予算とカバーシャドウ価格の双方を含むアフィンしきい値規則により最適政策を特徴付けることができることを示す。
組合せ解の線形プログラミング緩和は、O(1)積分性ギャップを持ち、最適離散割当と漸近同値であることを示す。
この結果に基づいて,Greedy-Lagrangian (GLC) と rank-and-cut (RC) アルゴリズムの2つの実装可能なアプローチを解析した。
本稿では, GLC が最適解を近似し, 有限標本における準最適性能を実現することを示す。
対照的に、RCはカバレッジ制約が遅れたり、コストが均質である場合や、コストの不均一性が結合カバレッジ制約と相互作用する場合のみ、ほぼ最適である。
モンテカルロの証拠はこれらの発見を支持している。
関連論文リスト
- Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。
逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。
これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文 参考訳(メタデータ) (2025-02-09T22:14:45Z) - e-COP : Episodic Constrained Optimization of Policies [12.854752753529151]
本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。
提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
論文 参考訳(メタデータ) (2024-06-13T20:12:09Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Multi-Agent Bayesian Optimization with Coupled Black-Box and Affine
Constraints [21.38692458445459]
ブラックボックス制約と既知のアフィン制約を結合した分散マルチエージェントベイズ最適化の問題について検討する。
単一エージェントの場合と同様の後悔/違反境界を実現するアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2023-10-02T08:07:36Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - On Gap-dependent Bounds for Offline Reinforcement Learning [40.92345387517103]
本稿では,オフライン強化学習におけるギャップ依存型サンプル複雑性の系統的研究を行う。
最適政策カバレッジの仮定の下では、最適な$Q$-函数に正の準最適差がある場合、その値は$Oleft(frac1epsilonright)$に改善することができる。
最適政策の訪問確率が正である状態に対して,行動政策の訪問確率が一様に低い場合,最適政策を特定する際のサンプルの複雑さは$frac1epsilon$とは無関係である。
論文 参考訳(メタデータ) (2022-06-01T01:44:12Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。