論文の概要: $κ$-Explorer: A Unified Framework for Active Model Estimation in MDPs
- arxiv url: http://arxiv.org/abs/2602.20404v1
- Date: Mon, 23 Feb 2026 22:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.543911
- Title: $κ$-Explorer: A Unified Framework for Active Model Estimation in MDPs
- Title(参考訳): $κ$-Explorer: MDPにおけるアクティブモデル推定のための統一フレームワーク
- Authors: Xihe Gu, Urbashi Mitra, Tara Javidi,
- Abstract要約: 固有推定複雑性と訪問頻度を明示的に組み込んだ目的関数のパラメタ化ファミリを$U_$で導入する。
本稿では,Frank-Wolfe方式の探索アルゴリズムである$-Explorerを提案する。
MDPのベンチマーク実験では、$$-Explorerが既存の探索戦略よりも優れたパフォーマンスを提供することが示された。
- 参考スコア(独自算出の注目度): 20.944349513772067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In tabular Markov decision processes (MDPs) with perfect state observability, each trajectory provides active samples from the transition distributions conditioned on state-action pairs. Consequently, accurate model estimation depends on how the exploration policy allocates visitation frequencies in accordance with the intrinsic complexity of each transition distribution. Building on recent work on coverage-based exploration, we introduce a parameterized family of decomposable and concave objective functions $U_κ$ that explicitly incorporate both intrinsic estimation complexity and extrinsic visitation frequency. Moreover, the curvature $κ$ provides a unified treatment of various global objectives, such as the average-case and worst-case estimation error objectives. Using the closed-form characterization of the gradient of $U_κ$, we propose $κ$-Explorer, an active exploration algorithm that performs Frank-Wolfe-style optimization over state-action occupancy measures. The diminishing-returns structure of $U_κ$ naturally prioritizes underexplored and high-variance transitions, while preserving smoothness properties that enable efficient optimization. We establish tight regret guarantees for $κ$-Explorer and further introduce a fully online and computationally efficient surrogate algorithm for practical use. Experiments on benchmark MDPs demonstrate that $κ$-Explorer provides superior performance compared to existing exploration strategies.
- Abstract(参考訳): 完全な状態可観測性を持つ表形式のマルコフ決定過程(MDP)では、各軌道は状態-作用対に条件付けられた遷移分布からアクティブなサンプルを提供する。
その結果、正確なモデル推定は、各遷移分布の内在的な複雑さに応じて、探索ポリシーがどのように訪問頻度を割り当てるかに依存する。
包括的探索に関する最近の研究に基づいて,本質的な推定複雑性と外在来訪頻度の両方を明示的に組み込んだ,分解可能かつ包括的対象関数のパラメータ化ファミリ($U_κ$)を導入する。
さらに、curvature $κ$は、平均ケースや最悪の推定誤差の目的など、様々な大域的な目的の統一的な処理を提供する。
U_κ$の勾配の閉形式的特徴を利用して、状態-作用占有度に対するフランク・ウルフ方式の最適化を行うアクティブ探索アルゴリズムである$κ$-Explorerを提案する。
U_κ$ の減少-回帰構造は、探索的かつ高分散な遷移を自然に優先し、効率的な最適化を可能にする滑らか性特性を保っている。
我々は、$κ$-Explorerに対する厳格な後悔の保証を確立し、さらに、完全にオンラインで計算効率の良いサロゲートアルゴリズムを実用化するために導入する。
ベンチマーク MDP の実験では、$κ$-Explorer が既存の探索戦略よりも優れたパフォーマンスを提供することが示された。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。
最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。
我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文 参考訳(メタデータ) (2024-04-19T06:24:22Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Minimax Optimal Online Imitation Learning via Replay Estimation [47.83919594113314]
本稿では,この経験的分散を低減するために,リプレイ推定手法を提案する。
提案手法では, min(H3/2 / N, H / sqrtN$)$ 依存度を最適に$widetildeO に設定する。
論文 参考訳(メタデータ) (2022-05-30T19:29:56Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Using Distance Correlation for Efficient Bayesian Optimization [0.0]
距離相関と呼ばれる2つの確率変数の相関関係の統計的尺度とBOを統合したBOスキームBDCを提案する。
BDCの探索は自動的にバランスと利用のバランスを保ち、手動のハイパーパラメータチューニングを必要としない。
我々はBDCを様々なベンチマークテストで評価し、一般的なBO法と同等に動作することを観察する。
論文 参考訳(メタデータ) (2021-02-17T19:37:35Z) - Bayesian Optimization of Risk Measures [7.799648230758491]
我々は、$rho[F(x, W) ]$ という形の目的関数のベイズ最適化を考える。
目的関数の構造を利用してサンプリング効率を大幅に向上する新しいベイズ最適化アルゴリズム群を提案する。
論文 参考訳(メタデータ) (2020-07-10T18:20:46Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z) - Efficient Rollout Strategies for Bayesian Optimization [15.050692645517998]
ほとんどの獲得関数はミオピックであり、次の関数評価の影響のみを考慮することを意味する。
準モンテカルロ, 共通乱数, 制御変数の組み合わせはロールアウトの計算負担を著しく低減することを示した。
次に、ロールアウト獲得関数の最適化の必要性を排除したポリシー検索に基づくアプローチを定式化する。
論文 参考訳(メタデータ) (2020-02-24T20:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。