論文の概要: A Covering Framework for Offline POMDPs Learning using Belief Space Metric
- arxiv url: http://arxiv.org/abs/2603.03191v1
- Date: Tue, 03 Mar 2026 17:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.900181
- Title: A Covering Framework for Offline POMDPs Learning using Belief Space Metric
- Title(参考訳): 空間距離を用いたオフラインPOMDP学習のための被覆フレームワーク
- Authors: Youheng Zhu, Yiping Lu,
- Abstract要約: 本稿では,信念空間の内在的メートル法構造を利用した包括的分析フレームワークを提案する。
価値関連関数が信念空間におけるリプシッツ連続であると仮定することにより、地平線とメモリ長で指数的に爆発する誤差境界を導出する。
- 参考スコア(独自算出の注目度): 3.540245474029962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In off policy evaluation (OPE) for partially observable Markov decision processes (POMDPs), an agent must infer hidden states from past observations, which exacerbates both the curse of horizon and the curse of memory in existing OPE methods. This paper introduces a novel covering analysis framework that exploits the intrinsic metric structure of the belief space (distributions over latent states) to relax traditional coverage assumptions. By assuming value relevant functions are Lipschitz continuous in the belief space, we derive error bounds that mitigate exponential blow ups in horizon and memory length. Our unified analysis technique applies to a broad class of OPE algorithms, yielding concrete error bounds and coverage requirements expressed in terms of belief space metrics rather than raw history coverage. We illustrate the improved sample efficiency of this framework via case studies: the double sampling Bellman error minimization algorithm, and the memory based future dependent value functions (FDVF). In both cases, our coverage definition based on the belief space metric yields tighter bounds.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)のオフポリシー評価(OPE)では、エージェントは過去の観測から隠れた状態を推測しなければならない。
本稿では,信念空間の内在的メートル法構造(潜在状態への分布)を利用して,従来のカバレッジ仮定を緩和する,新しいカバレッジ分析フレームワークを提案する。
価値関連関数が信念空間におけるリプシッツ連続であると仮定することにより、地平線とメモリ長の指数的爆発を緩和する誤差境界を導出する。
我々の統一解析手法は,OPEアルゴリズムの幅広いクラスに適用され,具体的な誤差境界と,生の履歴のカバレッジではなく,信念空間のメトリクスで表されるカバレッジ要件が得られる。
本稿では,ベルマン誤差最小化アルゴリズムの二重サンプリングと,メモリに基づく将来依存値関数 (FDVF) を用いたケーススタディにより,本フレームワークのサンプル効率の改善について述べる。
どちらの場合も、信念空間の計量に基づくカバレッジ定義はより厳密な境界をもたらす。
関連論文リスト
- Causal Imitation Learning Under Measurement Error and Distribution Shift [6.038778620145853]
ノイズ測定によってのみ、決定関連状態の一部が観察される場合、オフライン模倣学習(IL)について検討する。
本稿では,変数間の因果関係を明示的にモデル化することによって,測定誤差下でのILの一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:06:53Z) - A Unifying View of Coverage in Linear Off-Policy Evaluation [36.79977028763131]
この設定のための標準アルゴリズム LSTDQ の新たな有限サンプル解析を提供する。
インストゥルメンタル・ヴァリタブル・ビューにインスパイアされた我々は、新しいカバレッジパラメータ、特徴力学のカバレッジに依存するエラー境界を開発する。
論文 参考訳(メタデータ) (2026-01-26T23:30:24Z) - Finite Memory Belief Approximation for Optimal Control in Partially Observable Markov Decision Processes [1.614301262383079]
部分観測可能(PO)最適制御(SOC)問題に対する有限メモリ信念近似について検討した。
我々は,情報損失を制御性能に直接関連付ける計量に基づく理論を開発した。
論文 参考訳(メタデータ) (2026-01-06T16:05:20Z) - Conditional Coverage Diagnostics for Conformal Prediction [47.93989136542648]
条件付きカバレッジ推定が分類問題であることを示す。
得られたメトリクスの族をターゲットカバレッジ(ERT)の過剰なリスクと呼びます。
ERTのオープンソースパッケージと、以前の条件付きカバレッジメトリクスをリリースしています。
論文 参考訳(メタデータ) (2025-12-12T18:47:39Z) - Anti-Collapse Loss for Deep Metric Learning Based on Coding Rate Metric [99.19559537966538]
DMLは、分類、クラスタリング、検索といった下流タスクのための識別可能な高次元埋め込み空間を学習することを目的としている。
埋め込み空間の構造を維持し,特徴の崩壊を避けるために,反崩壊損失と呼ばれる新しい損失関数を提案する。
ベンチマークデータセットの総合実験により,提案手法が既存の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-03T13:44:20Z) - On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation [11.829110453985228]
我々は地平線への指数的依存を避けるための推定器を開発する。
本稿では,POMDPの構造に合わせた新しいカバレッジ仮定を発見する。
副産物として、我々の分析は相補的な性質を持つ新しいアルゴリズムの発見にも繋がる。
論文 参考訳(メタデータ) (2024-02-22T17:00:50Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Towards Certified Robustness of Distance Metric Learning [53.96113074344632]
我々は,距離学習アルゴリズムの一般化とロバスト性を改善するために,入力空間に逆のマージンを付与することを提唱する。
アルゴリズム的ロバスト性の理論手法を用いることにより,拡張マージンは一般化能力に有益であることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:51:53Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。