論文の概要: Non-Stationary Delayed Bandits with Intermediate Observations
- arxiv url: http://arxiv.org/abs/2006.02119v2
- Date: Tue, 11 Aug 2020 16:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 17:29:23.519294
- Title: Non-Stationary Delayed Bandits with Intermediate Observations
- Title(参考訳): 中間観測による非定常遅延帯域
- Authors: Claire Vernade, Andras Gyorgy, and Timothy Mann
- Abstract要約: オンラインレコメンデータシステムは、特に長期的なメトリクスを最適化する場合、フィードバックを受け取るのに長い遅延に直面します。
中間観測による非定常遅延帯域の問題を紹介する。
UCRLに基づく効率的なアルゴリズムを開発し,その性能に対するサブ線形後悔保証を証明した。
- 参考スコア(独自算出の注目度): 10.538264213183076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online recommender systems often face long delays in receiving feedback,
especially when optimizing for some long-term metrics. While mitigating the
effects of delays in learning is well-understood in stationary environments,
the problem becomes much more challenging when the environment changes. In
fact, if the timescale of the change is comparable to the delay, it is
impossible to learn about the environment, since the available observations are
already obsolete. However, the arising issues can be addressed if intermediate
signals are available without delay, such that given those signals, the
long-term behavior of the system is stationary. To model this situation, we
introduce the problem of stochastic, non-stationary, delayed bandits with
intermediate observations. We develop a computationally efficient algorithm
based on UCRL, and prove sublinear regret guarantees for its performance.
Experimental results demonstrate that our method is able to learn in
non-stationary delayed environments where existing methods fail.
- Abstract(参考訳): オンラインレコメンデータシステムは、特に長期的なメトリクスを最適化する場合、フィードバックを受け取るのに長い遅延に直面します。
学習における遅延の影響を緩和することは定常環境ではよく理解されているが、環境が変化すると問題はさらに難しくなる。
実際、変更のタイムスケールが遅延と同等であれば、利用可能な観測はすでに時代遅れであるため、環境について学ぶことは不可能である。
しかし、中間信号が遅延なく利用可能である場合、システムの長期動作が定常であるような問題に対処することができる。
この状況をモデル化するために,中間観測による確率的,非定常的,遅延的バンディットの問題を紹介する。
UCRLに基づく計算効率の良いアルゴリズムを開発し,その性能に対するサブ線形後悔保証を証明した。
実験の結果,既存手法が故障した非定常遅延環境で学習できることが判明した。
関連論文リスト
- Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Neural Laplace Control for Continuous-time Delayed Systems [76.81202657759222]
本稿では,ニューラルラプラス力学モデルとモデル予測制御(MPC)プランナを組み合わせた連続時間モデルに基づくオフラインRL法を提案する。
専門家の政策性能に近い連続的な遅延環境を実験的に示す。
論文 参考訳(メタデータ) (2023-02-24T12:40:28Z) - DaDe: Delay-adaptive Detector for Streaming Perception [0.0]
リアルタイム環境では、処理が終了すると周囲環境が変化する。
リアルタイム映像認識のレイテンシと精度を評価するために,ストリーム認識を提案する。
我々は,処理遅延をリアルタイムに反映し,最も合理的な結果が得られるモデルを開発した。
論文 参考訳(メタデータ) (2022-12-22T09:25:46Z) - Intrinsic Anomaly Detection for Multi-Variate Time Series [33.199682596741276]
固有の異常は、環境を表す時系列と、その環境に置かれるシステムの内部状態を表す時系列の間の機能的依存構造の変化である。
これらのことは、システムの状態の変化と予期せぬ変化、すなわち環境の影響から逸脱するシステムの変化を区別できない既存の異常検出手法の欠点に対処する。
我々の最も有望なアプローチは、完全に教師なしであり、敵対的学習と時系列表現学習を組み合わせることで、ラベルの空間性や主観性といった問題に対処する。
論文 参考訳(メタデータ) (2022-06-29T00:51:44Z) - Delay-adaptive step-sizes for asynchronous learning [8.272788656521415]
システム内の実際の時間変化の遅延に依存する学習率を利用することが可能であることを示す。
これらの方法のそれぞれに対して, 遅延をオンラインで測定し, 遅延適応的なステップサイズポリシーを提示し, 現状に対する理論的, 実践的優位性を実証する。
論文 参考訳(メタデータ) (2022-02-17T09:51:22Z) - Stochastic Multi-Armed Bandits with Unrestricted Delay Distributions [54.25616645675032]
アルゴリズムが受信したフィードバックにランダムな遅延を伴うマルチアーマッド・バンドイット(MAB)問題について検討する。
報酬非依存の遅延設定は、報酬非依存の遅延設定と、報酬非依存の遅延設定に依存する可能性がある。
私たちの主な貢献は、それぞれの設定でほぼ最適に後悔するアルゴリズムです。
論文 参考訳(メタデータ) (2021-06-04T12:26:06Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z) - Reinforcement Learning with Random Delays [14.707955337702943]
後方視における軌道断片の部分的再サンプリングにより、オフ・ポリティクスの多段階値推定が可能となることを示す。
この原理を適用し,遅延のある環境において,ソフト・アクタ・クライブに基づくアルゴリズムである遅延補正アクタ・クライブ(DCAC)を導出する。
論文 参考訳(メタデータ) (2020-10-06T18:39:23Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z) - Time-varying Gaussian Process Bandit Optimization with Non-constant
Evaluation Time [93.6788993843846]
非定常評価時間を効果的に処理できる新しい時間変化ベイズ最適化アルゴリズムを提案する。
我々の限界は、評価時間列のパターンが問題の難易度に大きな影響を与えることを決定づける。
論文 参考訳(メタデータ) (2020-03-10T13:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。