論文の概要: Non-stochastic Bandits With Evolving Observations
- arxiv url: http://arxiv.org/abs/2405.16843v1
- Date: Mon, 27 May 2024 05:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 17:00:31.488644
- Title: Non-stochastic Bandits With Evolving Observations
- Title(参考訳): 進行観察による非確率帯域
- Authors: Yogev Bar-On, Yishay Mansour,
- Abstract要約: 既存のモデルを統一し一般化する新しいオンライン学習フレームワークを導入する。
我々は,全情報設定と帯域幅設定の両方に対して,後悔の最小化アルゴリズムを提案する。
我々のアルゴリズムは、多くの特別なケースにまたがる既知の後悔境界と一致し、以前にも知られていない境界も導入する。
- 参考スコア(独自算出の注目度): 47.61533665679308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel online learning framework that unifies and generalizes pre-established models, such as delayed and corrupted feedback, to encompass adversarial environments where action feedback evolves over time. In this setting, the observed loss is arbitrary and may not correlate with the true loss incurred, with each round updating previous observations adversarially. We propose regret minimization algorithms for both the full-information and bandit settings, with regret bounds quantified by the average feedback accuracy relative to the true loss. Our algorithms match the known regret bounds across many special cases, while also introducing previously unknown bounds.
- Abstract(参考訳): 動作フィードバックが時間とともに進化する敵環境を包含するために,遅延フィードバックや破損フィードバックなどの事前確立されたモデルを統一・一般化する新しいオンライン学習フレームワークを導入する。
この設定では、観測された損失は任意であり、得られた真の損失と相関せず、各ラウンドは以前の観測を逆向きに更新する。
本手法では,全情報量と帯域幅の両設定に対する最小化アルゴリズムを提案する。
我々のアルゴリズムは、多くの特別なケースにまたがる既知の後悔境界と一致し、以前にも知られていない境界も導入する。
関連論文リスト
- Accelerated Rates between Stochastic and Adversarial Online Convex
Optimization [2.628557920905129]
我々は,オンライン凸最適化において,対人的損失と完全対人的損失を補間する新たな後悔境界を確立する。
完全i.d.の場合、我々の後悔の限界は加速の結果から期待される速度と一致し、オンラインからバッチへの変換によって最適に加速された速度を回復する。
論文 参考訳(メタデータ) (2023-03-06T16:41:57Z) - Reward Imputation with Sketching for Contextual Batched Bandits [48.80803376405073]
コンテキストバッチバンドイット(Contextual batched bandit、CBB)は、各エピソードの最後に環境から報酬のバッチを観測する設定である。
CBBの既存のアプローチは、実行されていないアクションの報酬を無視し、フィードバック情報の未利用につながることが多い。
本研究では,未観測の報酬をスケッチを用いて完遂するSketched Policy Updating with Imputed Rewards (SPUIR)を提案する。
論文 参考訳(メタデータ) (2022-10-13T04:26:06Z) - Regret Minimization and Convergence to Equilibria in General-sum Markov
Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文 参考訳(メタデータ) (2022-07-28T16:27:59Z) - Second Order Regret Bounds Against Generalized Expert Sequences under
Partial Bandit Feedback [0.0]
本稿では,部分帯域フィードバック設定下でのエキスパートアドバイスの問題について検討し,逐次ミニマックス最適アルゴリズムを作成する。
本アルゴリズムは,従来の帯域幅フィードバックとは対照的に,逆向きに損失を明らかにすることのできる,より一般的な部分的監視設定で動作する。
論文 参考訳(メタデータ) (2022-04-13T22:48:12Z) - Nonstochastic Bandits and Experts with Arm-Dependent Delays [17.272515865592542]
遅延が時間と腕に依存するような遅延環境で,非確率的な盗賊や専門家について検討する。
私たちの分析では、ドリフトに縛られた小説にヒンジを付け、1ラウンドのルックアヘッドを与えられた場合、アルゴリズムがどれだけの精度で実行できるかを測定しました。
論文 参考訳(メタデータ) (2021-11-02T13:36:11Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - Online non-convex optimization with imperfect feedback [33.80530308979131]
非損失を伴うオンライン学習の問題を考える。
フィードバックの観点からは、学習者が各段階における損失関数の不正確なモデル(または構成)を観測すると仮定する。
本稿では,二元平均化に基づく混合戦略学習政策を提案する。
論文 参考訳(メタデータ) (2020-10-16T16:53:13Z) - Temporal Variability in Implicit Online Learning [15.974402990630402]
最強の後悔分析は、オンラインミラー・ダイスンよりも限界的な改善しか示さない。
損失関数列の時間的変動に依存する新しい静的な後悔境界を証明した。
本稿では、時間的変動の事前知識を必要とせずに、この後悔を抑える適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:50:34Z) - Prediction with Corrupted Expert Advice [67.67399390910381]
ステップサイズを減らした古典的乗法重みアルゴリズムの変種が、良質な環境において絶え間なく後悔することを証明する。
我々の結果は、しばしば同等のFollow the Regularized Leader(FTRL)とOnline Mirror Descent(OMD)フレームワークの驚くべき相違を明らかにします。
論文 参考訳(メタデータ) (2020-02-24T14:39:55Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。