論文の概要: To update or not to update? Delayed Nonparametric Bandits with
Randomized Allocation
- arxiv url: http://arxiv.org/abs/2005.13078v1
- Date: Tue, 26 May 2020 23:06:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 23:46:50.017806
- Title: To update or not to update? Delayed Nonparametric Bandits with
Randomized Allocation
- Title(参考訳): 更新するか更新しないか?
ランダム配置による遅延非パラメトリックバンディット
- Authors: Sakshi Arya and Yuhong Yang
- Abstract要約: 文脈的包帯における遅延報酬問題は、様々な実践的状況において関心を寄せている。
本研究では,ランダム化割当戦略について検討し,探索・探索トレードオフが報酬を観察する際の遅延の影響について理解する。
- 参考スコア(独自算出の注目度): 5.9814720629540155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Delayed rewards problem in contextual bandits has been of interest in various
practical settings. We study randomized allocation strategies and provide an
understanding on how the exploration-exploitation tradeoff is affected by
delays in observing the rewards. In randomized strategies, the extent of
exploration-exploitation is controlled by a user-determined exploration
probability sequence. In the presence of delayed rewards, one may choose
between using the original exploration sequence that updates at every time
point or update the sequence only when a new reward is observed, leading to two
competing strategies. In this work, we show that while both strategies may lead
to strong consistency in allocation, the property holds for a wider scope of
situations for the latter. However, for finite sample performance, we
illustrate that both strategies have their own advantages and disadvantages,
depending on the severity of the delay and underlying reward generating
mechanisms.
- Abstract(参考訳): コンテキストバンディットにおける遅延報酬問題は、様々な実用的な設定で注目されている。
本研究では,ランダムな割当戦略を検討し,探索・探索トレードオフが報酬観察の遅延にどのように影響するかを理解する。
ランダム化戦略では、探索探索の程度はユーザが決定した探索確率列によって制御される。
遅延報酬の存在下では、各時点に更新される元の探索シーケンスを使用するか、新しい報酬が観測された場合にのみ更新するかを選択して、競合する2つの戦略を選択することができる。
本研究は,両戦略がアロケーションにおいて強い整合性をもたらす可能性があるが,その特性は後者の状況の範囲を広く保っていることを示す。
しかし,有限サンプル性能については,遅延の重大さと報酬発生メカニズムに依拠して,双方の戦略がそれぞれ独自の長所と短所を持つことを示す。
関連論文リスト
- MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Reward Augmentation in Reinforcement Learning for Testing Distributed Systems [6.0560257343687995]
人気のある分散プロトコル実装のバグは、人気のあるインターネットサービスにおける多くのダウンタイムの源となっている。
本稿では,強化学習に基づく分散プロトコル実装のためのランダム化テスト手法について述べる。
お互いに構築する2つの異なるテクニックを示します。
論文 参考訳(メタデータ) (2024-09-02T15:07:05Z) - Beyond Optimism: Exploration With Partially Observable Rewards [10.571972176725371]
強化学習(RL)の探索は依然としてオープンな課題である。
本稿では,既存手法の限界を克服し,最適方針への収束を保証する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-06-20T00:42:02Z) - Randomized Confidence Bounds for Stochastic Partial Monitoring [8.649322557020666]
部分的監視(PM)フレームワークは、不完全なフィードバックを伴う逐次学習問題の理論的定式化を提供する。
文脈的PMでは、結果は各ラウンドでアクションを選択する前にエージェントによって観測可能な何らかの側情報に依存する。
決定論的信頼境界のランダム化に基づく新しいPM戦略のクラスを導入する。
論文 参考訳(メタデータ) (2024-02-07T16:18:59Z) - Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。
この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。
本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T15:56:59Z) - SEREN: Knowing When to Explore and When to Exploit [14.188362393915432]
本稿では,SEREN(Sive Reinforcement Exploration Network)を紹介する。
インパルス制御(英語版)として知られる政策を用いて、スイッチャーは探索政策に切り替える最良の状態のセットを決定することができる。
我々は、SERENが急速に収束し、純粋な搾取に向けた自然なスケジュールを導き出すことを証明した。
論文 参考訳(メタデータ) (2022-05-30T12:44:56Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Learning from History for Byzantine Robust Optimization [52.68913869776858]
分散学習の重要性から,ビザンチンの堅牢性が近年注目されている。
既存のロバストアグリゲーションルールの多くは、ビザンチンの攻撃者がいなくても収束しない可能性がある。
論文 参考訳(メタデータ) (2020-12-18T16:22:32Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。