論文の概要: On the Value of Stochastic Side Information in Online Learning
- arxiv url: http://arxiv.org/abs/2303.05914v1
- Date: Thu, 9 Mar 2023 15:06:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 15:02:50.256730
- Title: On the Value of Stochastic Side Information in Online Learning
- Title(参考訳): オンライン学習における確率的側情報の価値について
- Authors: Junzhang Jia, Xuetong Wu, Jingge Zhu, and Jamie Evans
- Abstract要約: 決定論的オンライン学習シナリオにおけるサイド情報の有効性について検討する。
特定の側面情報は予測者には提供できるが、専門家には提供されないと仮定する。
- 参考スコア(独自算出の注目度): 3.4788711710826083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the effectiveness of stochastic side information in deterministic
online learning scenarios. We propose a forecaster to predict a deterministic
sequence where its performance is evaluated against an expert class. We assume
that certain stochastic side information is available to the forecaster but not
the experts. We define the minimax expected regret for evaluating the
forecasters performance, for which we obtain both upper and lower bounds.
Consequently, our results characterize the improvement in the regret due to the
stochastic side information. Compared with the classical online learning
problem with regret scales with O(\sqrt(n)), the regret can be negative when
the stochastic side information is more powerful than the experts. To
illustrate, we apply the proposed bounds to two concrete examples of different
types of side information.
- Abstract(参考訳): 決定論的オンライン学習シナリオにおける確率的側情報の有効性について検討する。
本稿では,その性能をエキスパートクラスに対して評価する決定論的シーケンスを予測可能な予測器を提案する。
特定の確率的側面情報は、予測者には提供できるが専門家には提供されないと仮定する。
我々は,予測器の性能を評価するための最小限の後悔を定義し,上限値と下限値の両方を求める。
その結果,確率的側面情報による後悔の改善を特徴付けることができた。
従来のオンライン学習問題とO(\sqrt(n))と比較すると,確率的側情報が専門家よりも強力である場合には,後悔は否定的である。
そこで本稿では,提案手法を2種類の側面情報の具体的な例に適用する。
関連論文リスト
- Asymptotically Optimal Regret for Black-Box Predict-then-Optimize [7.412445894287709]
我々は,特別な構造を欠いた新たなブラックボックス予測最適化問題と,その行動から得られる報酬のみを観察する方法について検討した。
本稿では,経験的ソフトレグレット(ESR, Empirical Soft Regret)と呼ばれる新しい損失関数を提案する。
また、私たちのアプローチは、ニュースレコメンデーションやパーソナライズされた医療における現実の意思決定問題において、最先端のアルゴリズムよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-06-12T04:46:23Z) - Adversarial Resilience in Sequential Prediction via Abstention [46.80218090768711]
本研究では,クリーンラベルの逆数例を注入できる逆数設定における逐次予測の問題について検討する。
そこで本研究では,純粋と完全対向的な設定の間に位置する逐次予測の新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-06-22T17:44:22Z) - The Statistical Benefits of Quantile Temporal-Difference Learning for
Value Estimation [53.53493178394081]
我々は、分散強化学習アルゴリズムQTD(Quantile temporal-Difference Learning)を用いて分析する。
たとえ実践者が平均を超えるリターン分布に関心がなかったとしても、QTDは古典的なTD学習のような手法よりも優れたパフォーマンスを提供するかもしれない。
論文 参考訳(メタデータ) (2023-05-28T10:52:46Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - A Regret-Variance Trade-Off in Online Learning [14.41667013062914]
予測の分散が学習にどのように活用できるかを示す。
損失の減少を伴うオンライン予測では, 後悔に対する汚職の影響は大きなばらつきによって補うことができることを示す。
我々はその結果をオンライン線形回帰の設定にまで拡張する。
論文 参考訳(メタデータ) (2022-06-06T14:50:19Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - The Impact of Batch Learning in Stochastic Bandits [5.008064542274928]
バンディット問題、すなわちバッチ化バンディットの特殊な場合を考える。
推薦システムやeコマースプラットフォームの自然な制限により、学習エージェントは一定期間にわたってグループでバッチされた応答を観察する。
政策非依存の後悔分析を行い、候補者政策の後悔に対する上下限を実証する。
論文 参考訳(メタデータ) (2021-11-03T08:38:10Z) - Balanced Q-learning: Combining the Influence of Optimistic and
Pessimistic Targets [74.04426767769785]
シナリオによっては、特定の種類の偏見が好ましいかもしれないことを示す。
そこで我々は,目標を悲観的かつ楽観的な用語の凸組合せに修正した新しい強化学習アルゴリズムであるBa balanced Q-learningを設計する。
論文 参考訳(メタデータ) (2021-11-03T07:30:19Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。