論文の概要: Smooth Sequential Optimisation with Delayed Feedback
- arxiv url: http://arxiv.org/abs/2106.11294v1
- Date: Mon, 21 Jun 2021 17:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:19:58.481467
- Title: Smooth Sequential Optimisation with Delayed Feedback
- Title(参考訳): 遅延フィードバックによる円滑な逐次最適化
- Authors: Srivas Chennu, Jamie Martin, Puli Liyanagama, Phil Mohr
- Abstract要約: 累積入力からスムーズな報酬推定を推定する収縮への新しい適応を提案する。
数値シミュレーションにより, この適応は収縮の利点を保ち, 報酬推定の安定性を50%以上向上させることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic delays in feedback lead to unstable sequential learning using
multi-armed bandits. Recently, empirical Bayesian shrinkage has been shown to
improve reward estimation in bandit learning. Here, we propose a novel
adaptation to shrinkage that estimates smoothed reward estimates from windowed
cumulative inputs, to deal with incomplete knowledge from delayed feedback and
non-stationary rewards. Using numerical simulations, we show that this
adaptation retains the benefits of shrinkage, and improves the stability of
reward estimation by more than 50%. Our proposal reduces variability in
treatment allocations to the best arm by up to 3.8x, and improves statistical
accuracy - with up to 8% improvement in true positive rates and 37% reduction
in false positive rates. Together, these advantages enable control of the
trade-off between speed and stability of adaptation, and facilitate
human-in-the-loop sequential optimisation.
- Abstract(参考訳): フィードバックの確率的遅延は、マルチアームのバンディットを用いた不安定な逐次学習につながる。
近年,経験的ベイズ縮小はバンディット学習における報酬推定を改善することが示されている。
本稿では,遅延フィードバックと非定常報酬による不完全な知識に対処するため,窓付き累積入力からの報酬推定を円滑に見積もる,新しい縮小適応を提案する。
数値シミュレーションを用いて, この適応が収縮の利点を保ち, 報酬推定の安定性を50%以上向上させることを示した。
提案手法は, 最善の腕への治療割り当ての変動を最大3.8倍削減し, 統計的精度を最大8%改善し, 37%の偽陽性率を低下させる。
これらの利点は、速度と適応の安定性の間のトレードオフを制御し、ループ内シーケンシャル最適化を容易にする。
関連論文リスト
- Improving self-training under distribution shifts via anchored confidence with theoretical guarantees [13.796664304274643]
自己学習は、予測信頼度と実際の精度の相違が増大するため、分布シフトの時にしばしば不足する。
時間的整合性に基づく分散シフト下での自己学習を改善するための原理的手法を開発した。
提案手法では,計算オーバーヘッドを伴わない分散シフトシナリオにおいて,自己学習性能を8%から16%向上させる。
論文 参考訳(メタデータ) (2024-11-01T13:48:11Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Exploiting Correlated Auxiliary Feedback in Parameterized Bandits [56.84649080789685]
そこで本研究では,学習者が追加の補助的フィードバックを観察できるパラメータ化帯域問題の新たな変種について検討する。
補助的なフィードバックは、ユーザのサービス評価(リワード)を観察し、サービス提供時間(補助的なフィードバック)などの追加情報を収集するオンラインプラットフォームなど、多くの現実的なアプリケーションで容易に利用可能である。
論文 参考訳(メタデータ) (2023-11-05T17:27:06Z) - Did You Mean...? Confidence-based Trade-offs in Semantic Parsing [52.28988386710333]
タスク指向の構文解析において、キャリブレーションモデルが共通のトレードオフのバランスを取るのにどのように役立つかを示す。
次に、信頼性スコアがユーザビリティと安全性のトレードオフを最適化する上で、どのように役立つかを検証します。
論文 参考訳(メタデータ) (2023-03-29T17:07:26Z) - Towards Reliable Uncertainty Quantification via Deep Ensembles in
Multi-output Regression Task [0.0]
本研究は,多出力回帰タスクにおいて,近似ベイズ推論であるディープアンサンブルアプローチについて検討することを目的とする。
増大する不確実性の過小評価の傾向を初めて観察する。
本稿では,その不確実性定量化性能を向上させるために,ポストホックキャリブレーション法を適用したディープアンサンブルフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T05:10:57Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Counterfactual Evaluation of Slate Recommendations with Sequential
Reward Interactions [18.90946044396516]
音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスは、しばしばシーケンシャルな方法でコンテンツを扱う。
したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。
そこで本研究では,アナルアンバイアスの少ない報酬の逐次的相互作用が可能な新しい反事実推定器を提案する。
論文 参考訳(メタデータ) (2020-07-25T17:58:01Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Adversarial Robustness on In- and Out-Distribution Improves
Explainability [109.68938066821246]
RATIOは、Adversarial Training on In- and Out-distriionを通じて、堅牢性のためのトレーニング手順である。
RATIOはCIFAR10で最先端の$l$-adrialを実現し、よりクリーンな精度を維持している。
論文 参考訳(メタデータ) (2020-03-20T18:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。