論文の概要: OEUVRE: OnlinE Unbiased Variance-Reduced loss Estimation
- arxiv url: http://arxiv.org/abs/2510.22744v1
- Date: Sun, 26 Oct 2025 16:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.552929
- Title: OEUVRE: OnlinE Unbiased Variance-Reduced loss Estimation
- Title(参考訳): OEUVRE: OnlinE Unbiased Variance-Reduced Los Estimation
- Authors: Kanad Pardeshi, Bryan Wilder, Aarti Singh,
- Abstract要約: 我々は,現在および過去の時間ステップで学習した関数に対して,各入力サンプルを評価する推定器であるOEUVREを紹介する。
アルゴリズムの安定性は、多くのオンライン学習者が満足する特性であり、最適な更新、一貫性の証明、収束率、そして推定器の集中バウンドである。
- 参考スコア(独自算出の注目度): 23.762163604982366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online learning algorithms continually update their models as data arrive, making it essential to accurately estimate the expected loss at the current time step. The prequential method is an effective estimation approach which can be practically deployed in various ways. However, theoretical guarantees have previously been established under strong conditions on the algorithm, and practical algorithms have hyperparameters which require careful tuning. We introduce OEUVRE, an estimator that evaluates each incoming sample on the function learned at the current and previous time steps, recursively updating the loss estimate in constant time and memory. We use algorithmic stability, a property satisfied by many popular online learners, for optimal updates and prove consistency, convergence rates, and concentration bounds for our estimator. We design a method to adaptively tune OEUVRE's hyperparameters and test it across diverse online and stochastic tasks. We observe that OEUVRE matches or outperforms other estimators even when their hyperparameters are tuned with oracle access to ground truth.
- Abstract(参考訳): オンライン学習アルゴリズムは、データが到着するにつれてモデルを継続的に更新する。
提案手法は,様々な方法で実運用できる効果的な推定手法である。
しかし、理論上の保証はアルゴリズムの強い条件下で確立されており、実用的なアルゴリズムは注意深いチューニングを必要とするハイパーパラメータを持つ。
OEUVREは,現在および過去の時間ステップで学習した関数から各サンプルを推定し,一定の時間とメモリで損失推定値を再帰的に更新する推定器である。
アルゴリズムの安定性は、多くのオンライン学習者が満足する特性であり、最適な更新、一貫性の証明、収束率、そして推定器の集中バウンドである。
我々は、OEUVREのハイパーパラメータを適応的に調整し、様々なオンラインおよび確率的なタスクでテストする方法を設計する。
我々は,OEUVREが,地上の真実へのオラクルアクセスによって過度パラメータが調整された場合でも,他の推定値と一致したり,優れたりするのを観察する。
関連論文リスト
- Stabilizing Temporal Difference Learning via Implicit Stochastic Recursion [2.1301560294088318]
時間差学習は強化学習における基礎的アルゴリズムである
本稿では,TD更新を固定点方程式に変換する暗黙的TDアルゴリズムを提案する。
以上の結果から,暗黙的TDアルゴリズムはより広いステップサイズに適用可能であることが示された。
論文 参考訳(メタデータ) (2025-05-02T15:57:54Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [55.80276145563105]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
3つの理論的な貢献により、現在の最先端の成果が向上する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - Fast and Robust Online Inference with Stochastic Gradient Descent via
Random Scaling [0.9806910643086042]
本稿では,勾配降下アルゴリズムの平均化法により推定されるパラメータのベクトルに対するオンライン推論法を提案する。
我々のアプローチはオンラインデータで完全に運用されており、機能中心極限定理によって厳格に支えられている。
論文 参考訳(メタデータ) (2021-06-06T15:38:37Z) - Robust Learning via Persistency of Excitation [4.674053902991301]
勾配勾配勾配を用いたネットワークトレーニングは力学系パラメータ推定問題と等価であることを示す。
極値理論を用いて対応するリプシッツ定数を推定する効率的な手法を提案する。
我々の手法は、様々な最先端の対数訓練モデルにおいて、対数精度を0.1%から0.3%に普遍的に向上させる。
論文 参考訳(メタデータ) (2021-06-03T18:49:05Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。