論文の概要: Primal-Dual Spectral Representation for Off-policy Evaluation
- arxiv url: http://arxiv.org/abs/2410.17538v1
- Date: Wed, 23 Oct 2024 03:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:56:34.853038
- Title: Primal-Dual Spectral Representation for Off-policy Evaluation
- Title(参考訳): オフ政治評価のための2次元スペクトル表現法
- Authors: Yang Hu, Tianyi Chen, Na Li, Kai Wang, Bo Dai,
- Abstract要約: 外部政治評価(OPE)は、強化学習(RL)における最も基本的な問題の1つである。
我々のアルゴリズムであるSpectralDICEは原始的かつ標本効率が高く、その性能は厳密な理論的なサンプル複雑性保証と様々なベンチマークでの徹底的な経験的評価によって支えられている。
- 参考スコア(独自算出の注目度): 39.24759979398673
- License:
- Abstract: Off-policy evaluation (OPE) is one of the most fundamental problems in reinforcement learning (RL) to estimate the expected long-term payoff of a given target policy with only experiences from another behavior policy that is potentially unknown. The distribution correction estimation (DICE) family of estimators have advanced the state of the art in OPE by breaking the curse of horizon. However, the major bottleneck of applying DICE estimators lies in the difficulty of solving the saddle-point optimization involved, especially with neural network implementations. In this paper, we tackle this challenge by establishing a linear representation of value function and stationary distribution correction ratio, i.e., primal and dual variables in the DICE framework, using the spectral decomposition of the transition operator. Such primal-dual representation not only bypasses the non-convex non-concave optimization in vanilla DICE, therefore enabling an computational efficient algorithm, but also paves the way for more efficient utilization of historical data. We highlight that our algorithm, SpectralDICE, is the first to leverage the linear representation of primal-dual variables that is both computation and sample efficient, the performance of which is supported by a rigorous theoretical sample complexity guarantee and a thorough empirical evaluation on various benchmarks.
- Abstract(参考訳): オフ・ポリシー・アセスメント(OPE)は強化学習(RL)における最も基本的な問題の1つである。
推定器の分布補正推定(DICE)ファミリーは,水平線の呪いを破り,OPEの最先端を推し進めている。
しかし、DICE推定器を適用する主なボトルネックは、特にニューラルネットワークの実装に関わるサドルポイント最適化を解決することの難しさにある。
本稿では、遷移作用素のスペクトル分解を用いて、DICEフレームワークにおける値関数の線形表現と定常分布補正比、すなわち、原始変数と双対変数を定式化することで、この問題に対処する。
このような原始双対表現は、バニラDICEにおける非凸非凸最適化をバイパスするだけでなく、計算効率の良いアルゴリズムを可能にするとともに、歴史的データのより効率的な利用の道を開く。
提案アルゴリズムは,厳密な理論的なサンプルの複雑性保証と,様々なベンチマークにおける徹底的な経験的評価により,計算と標本効率の両立した一次双対変数の線形表現を利用する最初のアルゴリズムである。
関連論文リスト
- OptEx: Expediting First-Order Optimization with Approximately Parallelized Iterations [12.696136981847438]
ほぼ並列化されたイテレーション (OptEx) で高速化された一階最適化を導入する。
OptExは、並列コンピューティングを活用して、その反復的ボトルネックを軽減することで、FOOの効率を高める最初のフレームワークである。
我々は、カーネル化された勾配推定の信頼性とSGDベースのOpsExの複雑さを理論的に保証する。
論文 参考訳(メタデータ) (2024-02-18T02:19:02Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Variational Linearized Laplace Approximation for Bayesian Deep Learning [11.22428369342346]
変分スパースガウス過程(GP)を用いた線形ラプラス近似(LLA)の近似法を提案する。
本手法はGPの2つのRKHSの定式化に基づいており、予測平均として元のDNNの出力を保持する。
効率のよい最適化が可能で、結果としてトレーニングデータセットのサイズのサブ線形トレーニング時間が短縮される。
論文 参考訳(メタデータ) (2023-02-24T10:32:30Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - SoftDICE for Imitation Learning: Rethinking Off-policy Distribution
Matching [61.20581291619333]
SoftDICEは、模倣学習のための最先端のパフォーマンスを達成する。
我々は、模倣学習のための最先端のパフォーマンスを実現するSoftDICEを提案する。
論文 参考訳(メタデータ) (2021-06-06T15:37:11Z) - Off-Policy Evaluation via the Regularized Lagrangian [110.28927184857478]
最近提案された分布補正推定(DICE)ファミリーは, 行動に依存しないデータを用いた非政治的評価において, 技術の現状を推し進めている。
本稿では,これらを線形プログラムの正規化ラグランジアンとして統一する。
双対解は、安定性と推定バイアスの間のトレードオフをナビゲートする際の柔軟性を向上し、一般的にはより優れた見積もりを提供する。
論文 参考訳(メタデータ) (2020-07-07T13:45:56Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。