Fugu-MT 論文翻訳(概要): Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage

論文の概要: Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage

arxiv url: http://arxiv.org/abs/2302.02392v2
Date: Mon, 13 Nov 2023 14:46:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 22:29:43.288816
Title: Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage
Title（参考訳）: 実現可能性と部分被覆下におけるオフラインミニマックスソフトQ学習
Authors: Masatoshi Uehara, Nathan Kallus, Jason D. Lee, Wen Sun
Abstract要約: オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。ソフトマージン条件下でのバニラQ関数の類似した結果を示す。我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
参考スコア（独自算出の注目度）: 100.8180383245813
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In offline reinforcement learning (RL) we have no opportunity to explore so we must make assumptions that the data is sufficient to guide picking a good policy, taking the form of assuming some coverage, realizability, Bellman completeness, and/or hard margin (gap). In this work we propose value-based algorithms for offline RL with PAC guarantees under just partial coverage, specifically, coverage of just a single comparator policy, and realizability of soft (entropy-regularized) Q-function of the single policy and a related function defined as a saddle point of certain minimax optimization problem. This offers refined and generally more lax conditions for offline RL. We further show an analogous result for vanilla Q-functions under a soft margin condition. To attain these guarantees, we leverage novel minimax learning algorithms to accurately estimate soft or vanilla Q-functions with $L^2$-convergence guarantees. Our algorithms' loss functions arise from casting the estimation problems as nonlinear convex optimization problems and Lagrangifying.
Abstract（参考訳）: オフライン強化学習(RL)では、適切なポリシーを選択するのに十分なデータが十分であることを前提に、いくつかのカバレッジ、実現可能性、ベルマン完全性、および/またはハードマージン(ギャップ)を仮定して、調査する機会がない。本研究では, 単一コンパレータポリシのみのカバレッジと, 単一ポリシのソフト(エントロピー規則化)Q-関数の実現可能性と, 特定のミニマックス最適化問題のサドル点として定義された関連関数について, PAC保証付きオフラインRLの値ベースアルゴリズムを提案する。これにより、オフラインrlのより洗練されたlax条件が提供される。さらに,ソフトマージン条件下でのバニラQ関数の類似結果を示す。これらの保証を達成するために,新しいミニマックス学習アルゴリズムを用いて,l^2$-convergence 保証によりソフトq関数やバニラq関数を正確に推定する。我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。

関連論文リスト

A Unifying View of Coverage in Linear Off-Policy Evaluation [36.79977028763131]
この設定のための標準アルゴリズム LSTDQ の新たな有限サンプル解析を提供する。インストゥルメンタル・ヴァリタブル・ビューにインスパイアされた我々は、新しいカバレッジパラメータ、特徴力学のカバレッジに依存するエラー境界を開発する。
論文参考訳（メタデータ） (2026-01-26T23:30:24Z)
Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文参考訳（メタデータ） (2025-11-04T13:42:05Z)
Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文参考訳（メタデータ） (2025-06-08T13:37:38Z)
Provably Efficient RL under Episode-Wise Safety in Constrained MDPs with Linear Function Approximation [24.299769025346368]
制約決定過程(CMDP)における強化学習問題について検討する。本稿では,リニアCMDPに対するRLアルゴリズムを提案する。その結果,近年の線形CMDPアルゴリズムでは,制約に違反するか,指数計算コストに悪影響を及ぼす結果が得られた。
論文参考訳（メタデータ） (2025-02-14T13:07:25Z)
Offline RL via Feature-Occupancy Gradient Ascent [9.983014605039658]
大規模無限水平割引マルコフ決定過程(MDP)におけるオフライン強化学習の研究我々は,特徴占有空間における勾配上昇の形式を実行する新しいアルゴリズムを開発した。結果として得られた単純なアルゴリズムは、強い計算とサンプルの複雑さの保証を満たすことを示す。
論文参考訳（メタデータ） (2024-05-22T15:39:05Z)
Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文参考訳（メタデータ） (2023-10-10T02:45:50Z)
On Instance-Dependent Bounds for Offline Reinforcement Learning with Linear Function Approximation [80.86358123230757]
本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
論文参考訳（メタデータ） (2022-11-23T18:50:44Z)
Near-Optimal Deployment Efficiency in Reward-Free Reinforcement Learning with Linear Function Approximation [16.871660060209674]
本研究では, 線形関数近似を用いた展開効率向上強化学習(RL)の課題を, 遠近自由探索条件下で検討する。我々は,最大$widetildeO(fracd2H5epsilon2)$ trajectoriesを$H$デプロイメント内で収集し,$epsilon$-Optimal Policyを任意の(おそらくはデータに依存した)報酬関数の選択に対して識別するアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-03T03:48:26Z)
Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文参考訳（メタデータ） (2022-09-22T12:40:21Z)
COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文参考訳（メタデータ） (2022-04-19T15:55:47Z)
What are the Statistical Limits of Offline RL with Linear Function Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文参考訳（メタデータ） (2020-10-22T17:32:13Z)
Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-03-01T17:47:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。