論文の概要: Towards Blackwell Optimality: Bellman Optimality Is All You Can Get
- arxiv url: http://arxiv.org/abs/2510.13476v1
- Date: Wed, 15 Oct 2025 12:22:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.664597
- Title: Towards Blackwell Optimality: Bellman Optimality Is All You Can Get
- Title(参考訳): ブラックウェルの最適性に向けて:ベルマンの最適性
- Authors: Victor Boone, Adrienne Tuynman,
- Abstract要約: マルコフ決定過程における最適順序のポリシーを特定することの問題点について検討する。
各順序に対して,誤りの確率を無くした学習アルゴリズムを構築する。
識別アルゴリズムが有限時間で停止できるMDPのクラスを特徴付ける。
- 参考スコア(独自算出の注目度): 7.534196213324318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although average gain optimality is a commonly adopted performance measure in Markov Decision Processes (MDPs), it is often too asymptotic. Further incorporating measures of immediate losses leads to the hierarchy of bias optimalities, all the way up to Blackwell optimality. In this paper, we investigate the problem of identifying policies of such optimality orders. To that end, for each order, we construct a learning algorithm with vanishing probability of error. Furthermore, we characterize the class of MDPs for which identification algorithms can stop in finite time. That class corresponds to the MDPs with a unique Bellman optimal policy, and does not depend on the optimality order considered. Lastly, we provide a tractable stopping rule that when coupled to our learning algorithm triggers in finite time whenever it is possible to do so.
- Abstract(参考訳): 平均ゲイン最適性はマルコフ決定プロセス(MDP)で一般的に採用されているパフォーマンス指標であるが、しばしば漸近的である。
即時損失の尺度をさらに取り入れることで、ブラックウェル最適度まで、バイアス最適度の階層化につながる。
本稿では,このような最適順序のポリシーを識別する問題について検討する。
そこで,各順序毎に,誤りの確率を無くした学習アルゴリズムを構築する。
さらに,識別アルゴリズムが有限時間で停止できるMDPのクラスを特徴付ける。
このクラスは、独特なベルマン最適ポリシーを持つMDPに対応しており、考慮された最適順序に依存しない。
最後に、学習アルゴリズムに結合された場合、可能であればいつでも有限時間トリガーをトリガーする、トラクタブルな停止ルールを提供する。
関連論文リスト
- Efficient Computation of Blackwell Optimal Policies using Rational Functions [3.0529230554642752]
決定問題(MDPs)は、様々な領域にわたるシーケンシャルな意思決定をモデル化するための基礎的な枠組みを提供する。
割引された最適性は短期的な報酬を過度に優先し、一方平均最適性は強い構造的仮定に依存する。
Blackwellの最適性はこれらの課題に対処し、ディスカウントおよび平均報酬フレームワークの両方で最適性を保証する堅牢で包括的な基準を提供する。
論文 参考訳(メタデータ) (2025-08-25T17:41:30Z) - Anytime-Constrained Reinforcement Learning [6.981971551979697]
制約付きマルコフ決定過程(cMDP)を任意の制約で導入・研究する。
累積コストを付加した最適決定主義的政策が存在することを示す。
非自明な概略的ポリシーの計算は一般にNPハードであることが示される。
論文 参考訳(メタデータ) (2023-11-09T16:51:26Z) - Policy Gradient Algorithms for Robust MDPs with Non-Rectangular Uncertainty Sets [10.560809881699468]
非矩形不確実性集合を持つロバスト無限水平マルコフ決定過程(MDP)に対するポリシー勾配アルゴリズムを提案する。
対応するロバストなMDPは動的プログラミング技術では解決できず、実際は難解である。
そこで我々は,大域的最適性保証を提供する非矩形不確実性集合を持つ頑健なMDPに対する最初の完全解法を提案する。
論文 参考訳(メタデータ) (2023-05-30T13:02:25Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Stochastic Optimization Forests [60.523606291705214]
標準的なランダムな森林アルゴリズムのように予測精度を向上させるために分割するのではなく、分割を選択した木を栽培し、下流の意思決定品質を直接最適化することで、森林決定政策の訓練方法を示す。
概略分割基準は、各候補分割に対して正確に最適化された森林アルゴリズムに近い性能を保ちながら、100倍のランニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2020-08-17T16:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。