論文の概要: Rising Rested MAB with Linear Drift
- arxiv url: http://arxiv.org/abs/2501.04403v1
- Date: Wed, 08 Jan 2025 10:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:55:28.765268
- Title: Rising Rested MAB with Linear Drift
- Title(参考訳): リニアドリフトを用いた昇降型MAB
- Authors: Omer Amichay, Yishay Mansour,
- Abstract要約: 我々は,期待されるアクションの報酬が,アクションの実行回数の線形関数に従う非定常的マルチアームバンディット(MAB)を考える。
我々の主な結果は、上界と下界の両方を提供することで、$tildeTheta(T4/5K3/5)$の厳格な後悔境界である。
- 参考スコア(独自算出の注目度): 45.08313464321654
- License:
- Abstract: We consider non-stationary multi-arm bandit (MAB) where the expected reward of each action follows a linear function of the number of times we executed the action. Our main result is a tight regret bound of $\tilde{\Theta}(T^{4/5}K^{3/5})$, by providing both upper and lower bounds. We extend our results to derive instance dependent regret bounds, which depend on the unknown parametrization of the linear drift of the rewards.
- Abstract(参考訳): 我々は,期待されるアクションの報酬が,アクションの実行回数の線形関数に従う非定常的マルチアームバンディット(MAB)を考える。
我々の主な結果は、上界と下界の両方を提供することにより、$\tilde{\Theta}(T^{4/5}K^{3/5})$の厳密な後悔境界である。
結果を拡張して、報酬の線形ドリフトの未知のパラメトリゼーションに依存するインスタンス依存の後悔境界を導出する。
関連論文リスト
- Sparsity-Agnostic Linear Bandits with Adaptive Adversaries [19.84322270472381]
本研究では,各ラウンドにおいて,学習者が要素を選択して報酬を得る一連の行動(特徴ベクトル)を受信する線形帯域について検討する。
期待される報酬は、選択されたアクションの固定だが未知の線形関数である。
線形報酬関数の非ゼロ係数数$S$に依存するスパース後悔境界について検討する。
論文 参考訳(メタデータ) (2024-06-03T10:54:58Z) - Horizon-Free Regret for Linear Markov Decision Processes [92.02082223856479]
最近の一連の研究は、強化学習における残念な境界が(ほぼ)計画的地平から独立していることを示している。
我々は、人気のある線形マルコフ決定過程(MDP)設定に対して、最初の地平面自由境界を与える。
遷移モデルを明示的に推定し、不均一な値関数を計算する先行研究とは対照的に、直接値関数と信頼集合を推定する。
論文 参考訳(メタデータ) (2024-03-15T23:50:58Z) - Regret Lower Bounds in Multi-agent Multi-armed Bandit [14.822625665220068]
Multi-armed Banditは、後悔の証明可能な上限を持つメソッドを動機付けている。
異なる設定にまたがる後悔の少ない境界について、初めて包括的な研究を行った。
論文 参考訳(メタデータ) (2023-08-15T21:20:24Z) - PopArt: Efficient Sparse Regression and Experimental Design for Optimal
Sparse Linear Bandits [29.097522376094624]
そこで我々はPopArtと呼ばれる単純で効率的なスパース線形推定法を提案する。
我々は, 粗い線形バンディットアルゴリズムを導出し, 美術品の状態に対する後悔の上界の改善を享受する。
論文 参考訳(メタデータ) (2022-10-25T19:13:20Z) - Reward Imputation with Sketching for Contextual Batched Bandits [48.80803376405073]
コンテキストバッチバンドイット(Contextual batched bandit、CBB)は、各エピソードの最後に環境から報酬のバッチを観測する設定である。
CBBの既存のアプローチは、実行されていないアクションの報酬を無視し、フィードバック情報の未利用につながることが多い。
本研究では,未観測の報酬をスケッチを用いて完遂するSketched Policy Updating with Imputed Rewards (SPUIR)を提案する。
論文 参考訳(メタデータ) (2022-10-13T04:26:06Z) - HOUDINI: Escaping from Moderately Constrained Saddles [14.277428617774875]
本研究では,不等式制約の対数的数の下で,(ノイズの多い)勾配降下法がサドル点から逃れることができることを示す。
我々の結果は、正規降下と勾配降下の両方に当てはまる。
論文 参考訳(メタデータ) (2022-05-27T03:36:27Z) - Relative Deviation Margin Bounds [55.22251993239944]
我々はRademacher複雑性の観点から、分布依存と一般家庭に有効な2種類の学習境界を与える。
有限モーメントの仮定の下で、非有界な損失関数に対する分布依存的一般化境界を導出する。
論文 参考訳(メタデータ) (2020-06-26T12:37:17Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Tight Lower Bounds for Combinatorial Multi-Armed Bandits [72.56064196252498]
Combinatorial Multi-Armed Bandit 問題は、エージェントが各ラウンドで一組の腕を選択する、シーケンシャルな意思決定問題である。
最近提案されたGini重み付き滑らか度パラメータが単調報酬関数の下限を決定することを示す。
論文 参考訳(メタデータ) (2020-02-13T08:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。