論文の概要: Model-Free Reinforcement Learning with the Decision-Estimation
Coefficient
- arxiv url: http://arxiv.org/abs/2211.14250v2
- Date: Sat, 12 Aug 2023 20:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 22:56:15.164383
- Title: Model-Free Reinforcement Learning with the Decision-Estimation
Coefficient
- Title(参考訳): 決定推定係数を用いたモデル自由強化学習
- Authors: Dylan J. Foster and Noah Golowich and Jian Qian and Alexander Rakhlin
and Ayush Sekhari
- Abstract要約: 本稿では,汎用関数近似による構造化帯域と強化学習を包含する対話型意思決定の課題について考察する。
提案手法は,値関数近似を用いたモデル自由強化学習における残差を導出し,より一般的には有効かつ不可能な構造的結果を与える。
- 参考スコア(独自算出の注目度): 79.30248422988409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of interactive decision making, encompassing
structured bandits and reinforcement learning with general function
approximation. Recently, Foster et al. (2021) introduced the
Decision-Estimation Coefficient, a measure of statistical complexity that lower
bounds the optimal regret for interactive decision making, as well as a
meta-algorithm, Estimation-to-Decisions, which achieves upper bounds in terms
of the same quantity. Estimation-to-Decisions is a reduction, which lifts
algorithms for (supervised) online estimation into algorithms for decision
making. In this paper, we show that by combining Estimation-to-Decisions with a
specialized form of optimistic estimation introduced by Zhang (2022), it is
possible to obtain guarantees that improve upon those of Foster et al. (2021)
by accommodating more lenient notions of estimation error. We use this approach
to derive regret bounds for model-free reinforcement learning with value
function approximation, and give structural results showing when it can and
cannot help more generally.
- Abstract(参考訳): 一般化関数近似を用いた強化学習と構造化帯域を含む対話型意思決定の課題について考察する。
最近、Foster et al. (2021) は、対話的な意思決定において最適の後悔を低く抑える統計的複雑さの尺度である決定推定係数(Decision-Estimation Coefficient)を導入し、同じ量で上界を達成するメタアルゴリズム、推定対決定を導入した。
推定と決定は縮小であり、オンライン推定(教師あり)のアルゴリズムを意思決定のアルゴリズムに引き上げる。
本稿では,zhang (2022) が導入した特殊形の楽観的推定と推定・決定を組み合わせることで,より寛大な推定誤差の概念を取り入れることで,foster et al. (2021) のそれを改善する保証を得ることができることを示す。
提案手法は,値関数近似を用いたモデル自由強化学習における残差を導出し,より一般的には有効かつ不可能な構造的結果を与える。
関連論文リスト
- Assouad, Fano, and Le Cam with Interaction: A Unifying Lower Bound Framework and Characterization for Bandit Learnability [71.82666334363174]
我々は,統計的推定と対話的意思決定において,下位境界法のための統一的なフレームワークを開発する。
対話型意思決定のための新しい下位境界の複雑さを促進する新しい尺度である決定次元を導入する。
論文 参考訳(メタデータ) (2024-10-07T15:14:58Z) - Tight Guarantees for Interactive Decision Making with the
Decision-Estimation Coefficient [51.37720227675476]
我々は、決定推定係数の新たな変種を導入し、それを用いて、3つの面における事前の作業を改善する新しい下界を導出する。
我々は同じ量でスケールした後悔について上界を与え、フォスター等における上界と下界の間のギャップの1つを除いて全てを閉じる。
この結果は、後悔のフレームワークとPACフレームワークの両方に適用され、我々が期待するいくつかの新しい分析とアルゴリズム設計技術を利用して、より広範な利用が期待できる。
論文 参考訳(メタデータ) (2023-01-19T18:24:08Z) - Regret Bounds and Experimental Design for Estimate-then-Optimize [9.340611077939828]
実用的なアプリケーションでは、データは見積もりと最適化の2つのステップで決定される。
見積もりステップのエラーは、見積もりを最適化して、サブ最適決定に導くことができる。
我々は、滑らかで制約のない最適化問題に対するこの後悔に縛られた小説を提供する。
論文 参考訳(メタデータ) (2022-10-27T16:13:48Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - The Statistical Complexity of Interactive Decision Making [126.04974881555094]
複雑度尺度であるDecision-Estimation Coefficientは,サンプル効率のインタラクティブ学習に必要かつ十分であることが証明された。
統合アルゴリズム設計原則であるE2Dは、教師付き推定のための任意のアルゴリズムを、意思決定のためのオンラインアルゴリズムに変換する。
論文 参考訳(メタデータ) (2021-12-27T02:53:44Z) - Efficient Ensemble Model Generation for Uncertainty Estimation with
Bayesian Approximation in Segmentation [74.06904875527556]
アンサンブルセグメンテーションモデルを構築するための汎用的で効率的なセグメンテーションフレームワークを提案する。
提案手法では,層選択法を用いて効率よくアンサンブルモデルを生成することができる。
また,新たな画素単位の不確実性損失を考案し,予測性能を向上する。
論文 参考訳(メタデータ) (2020-05-21T16:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。