論文の概要: From Relative Entropy to Minimax: A Unified Framework for Coverage in MDPs
- arxiv url: http://arxiv.org/abs/2601.11890v1
- Date: Sat, 17 Jan 2026 03:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.36
- Title: From Relative Entropy to Minimax: A Unified Framework for Coverage in MDPs
- Title(参考訳): 相対エントロピーからミニマックスへ:MDPの包摂のための統一フレームワーク
- Authors: Xihe Gu, Urbashi Mitra, Tara Javidi,
- Abstract要約: 本稿では, 状態対応対策を直接的に定義した, 対価$U_$で表される凹凸被覆対象のファミリーを提案する。
このファミリーは、分岐に基づく境界マッチング、重み付き平均カバレッジ、最悪のケース(ミニマックス)カバレッジなど、単一のフレームワーク内で広く研究されている目的を統一する。
我々は、$$が増加するにつれて、結果の探索戦略は、探索されていない状態-アクションのペアをますます強調し、最悪のケースカバレッジの振る舞いをリカバリすることを示します。
- 参考スコア(独自算出の注目度): 20.944349513772067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Targeted and deliberate exploration of state--action pairs is essential in reward-free Markov Decision Problems (MDPs). More precisely, different state-action pairs exhibit different degree of importance or difficulty which must be actively and explicitly built into a controlled exploration strategy. To this end, we propose a weighted and parameterized family of concave coverage objectives, denoted by $U_ρ$, defined directly over state--action occupancy measures. This family unifies several widely studied objectives within a single framework, including divergence-based marginal matching, weighted average coverage, and worst-case (minimax) coverage. While the concavity of $U_ρ$ captures the diminishing return associated with over-exploration, the simple closed form of the gradient of $U_ρ$ enables an explicit control to prioritize under-explored state--action pairs. Leveraging this structure, we develop a gradient-based algorithm that actively steers the induced occupancy toward a desired coverage pattern. Moreover, we show that as $ρ$ increases, the resulting exploration strategy increasingly emphasizes the least-explored state--action pairs, recovering worst-case coverage behavior in the limit.
- Abstract(参考訳): 報酬のないマルコフ決定問題(MDPs)では、状態-作用対の標的的かつ慎重な探索が不可欠である。
より正確には、異なる状態-作用対は、制御された探索戦略に積極的に明示的に組み込まれなければならない、異なる重要性または難易度を示す。
この目的のために、状態-作用占有対策を直接的に定義した$U_ρ$で表される凹凸被覆対象の重み付きパラメータ化された族を提案する。
このファミリーは、分岐に基づく境界マッチング、重み付き平均カバレッジ、最悪のケース(ミニマックス)カバレッジなど、単一のフレームワーク内で広く研究されている目的を統一する。
U_ρ$の凹凸は過探索に伴う減少するリターンをキャプチャするが、$U_ρ$の勾配の単純な閉じた形は、過探索された状態-作用対を明示的に制御することができる。
この構造を応用して、所望のカバレッジパターンに向けて誘導された占有率を積極的に制御する勾配に基づくアルゴリズムを開発する。
さらに、$ρ$が増加するにつれて、結果として得られる探索戦略は、探索されていない状態-作用ペアをますます強調し、限界における最悪のカバレッジ挙動を回復させることを示した。
関連論文リスト
- Greedy Is Enough: Sparse Action Discovery in Agentic LLMs [11.62669179647184]
経験的証拠は、少数のアクションだけが、所定のデプロイメントのパフォーマンスに有意義に影響を及ぼすことを示唆している。
この観察によって動機づけられた行動が構造化された空間性仮定によって制御される文脈線形報酬モデルについて検討する。
本研究は,スパース行動発見を大アクション意思決定の基礎となる基本原理とみなす。
論文 参考訳(メタデータ) (2026-01-13T07:15:32Z) - Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Submodular Reinforcement Learning [38.40138241424851]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z) - Policy Mirror Descent Inherently Explores Action Space [10.772560347950053]
1/epsilon2)$tildemathcalO($tildemathcalO)を,探索戦略を使わずに,オンラインポリシグラデーションメソッドのサンプル複雑性を初めて確立しました。
新しいポリシー勾配法は、最適なポリシーを探す際に、潜在的にリスクの高い行動に繰り返しコミットするのを防ぐことができる。
論文 参考訳(メタデータ) (2023-03-08T05:19:08Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Adaptive Multi-Goal Exploration [118.40427257364729]
我々は、AdaGoalが$epsilon$-optimal goal-conditioned policyを学習する目的を達成するためにどのように使えるかを示す。
AdaGoalは、ゴール条件の深い強化学習のための既存の手法の高レベルなアルゴリズム構造に固定されている。
論文 参考訳(メタデータ) (2021-11-23T17:59:50Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z) - Asymptotically Efficient Off-Policy Evaluation for Tabular Reinforcement
Learning [20.546806161935578]
強化学習における非政治的評価の問題点を考察する。
目標は、ログポリシの実行によって収集されたオフラインデータを使用して、ターゲットポリシの期待される報酬を見積もることである。
平均二乗誤差のオーダーO(H3/n)$の誤差を平均二乗誤差で推定するために,MIS法が有効であることを示す。
論文 参考訳(メタデータ) (2020-01-29T09:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。