論文の概要: Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization
- arxiv url: http://arxiv.org/abs/2311.01900v1
- Date: Fri, 3 Nov 2023 13:20:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 14:10:07.201312
- Title: Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization
- Title(参考訳): Pearson-divergence関数最小化によるオンライン非パラメトリック確率比推定
- Authors: Alejandro de la Concha, Nicolas Vayatis, Argyris Kalogeratos
- Abstract要約: iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
- 参考スコア(独自算出の注目度): 55.98760097296213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantifying the difference between two probability density functions, $p$ and
$q$, using available data, is a fundamental problem in Statistics and Machine
Learning. A usual approach for addressing this problem is the likelihood-ratio
estimation (LRE) between $p$ and $q$, which -- to our best knowledge -- has
been investigated mainly for the offline case. This paper contributes by
introducing a new framework for online non-parametric LRE (OLRE) for the
setting where pairs of iid observations $(x_t \sim p, x'_t \sim q)$ are
observed over time. The non-parametric nature of our approach has the advantage
of being agnostic to the forms of $p$ and $q$. Moreover, we capitalize on the
recent advances in Kernel Methods and functional minimization to develop an
estimator that can be efficiently updated online. We provide theoretical
guarantees for the performance of the OLRE method along with empirical
validation in synthetic experiments.
- Abstract(参考訳): 2つの確率密度関数、$p$と$q$の差を定量化することは、統計と機械学習において根本的な問題である。
この問題に対処するための一般的なアプローチは、主にオフラインの場合、$p$と$q$の間の確率比推定(LRE)である。
本稿では, オンライン非パラメトリックlre (olre) の枠組みを導入し, iid 観測のペア $(x_t \sim p, x'_t \sim q)$ を時間とともに観測する。
我々のアプローチの非パラメトリックな性質は、$p$と$q$という形式によらないという利点があります。
さらに,カーネル手法と機能最小化の最近の進歩に乗じて,オンラインで効率的に更新できる推定器を開発する。
合成実験においてolre法の性能を理論的に保証し,実証的な検証を行う。
関連論文リスト
- A Specialized Semismooth Newton Method for Kernel-Based Optimal
Transport [92.96250725599958]
カーネルベース最適輸送(OT)推定器は、サンプルからOT問題に対処するための代替的機能的推定手順を提供する。
SSN法は, 標準正規性条件下でのグローバル収束率$O (1/sqrtk)$, 局所二次収束率を達成できることを示す。
論文 参考訳(メタデータ) (2023-10-21T18:48:45Z) - Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Online Statistical Inference for Nonlinear Stochastic Approximation with
Markovian Data [22.59079286063505]
マルコフデータの単一軌跡を用いた非線形近似アルゴリズムの統計的推定について検討した。
本手法は,自動回帰データや非同期Q-Learningにおけるグラディエント・Descent (SGD) など,様々なシナリオで実用化されている。
論文 参考訳(メタデータ) (2023-02-15T14:31:11Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Minimax Optimal Online Imitation Learning via Replay Estimation [47.83919594113314]
本稿では,この経験的分散を低減するために,リプレイ推定手法を提案する。
提案手法では, min(H3/2 / N, H / sqrtN$)$ 依存度を最適に$widetildeO に設定する。
論文 参考訳(メタデータ) (2022-05-30T19:29:56Z) - Efficient Minimax Optimal Estimators For Multivariate Convex Regression [1.583842747998493]
i) $L$-Lipschitz convex regression (ii) $Gamma$-bounded convex regression undertopal support。
この研究は、非ドンスカー類に対する効率的なミニマックス最適推定器の存在を示す最初のものである。
論文 参考訳(メタデータ) (2022-05-06T17:04:05Z) - Minimum discrepancy principle strategy for choosing $k$ in $k$-NN regression [2.0411082897313984]
保持データを用いずに、$k$-NN回帰推定器でハイパーパラメータ$k$を選択するための新しいデータ駆動戦略を提案する。
本稿では,早期停止と最小一致原理に基づく実践的戦略を実践的に容易に導入することを提案する。
論文 参考訳(メタデータ) (2020-08-20T00:13:19Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。