論文の概要: On the Minimax Regret for Linear Bandits in a wide variety of Action
Spaces
- arxiv url: http://arxiv.org/abs/2301.03597v1
- Date: Mon, 9 Jan 2023 17:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 17:03:43.306530
- Title: On the Minimax Regret for Linear Bandits in a wide variety of Action
Spaces
- Title(参考訳): 様々な作用空間における線形バンディットに対するミニマックスの後悔について
- Authors: Debangshu Banerjee, Aditya Gopalan
- Abstract要約: 様々なアクション空間における線形包帯のミニマックス後悔を特徴付けることは、オープンな問題である。
本稿では,広い種類の凸作用空間に対する最適後悔下界を示す。
- 参考スコア(独自算出の注目度): 20.044240674589897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As noted in the works of \cite{lattimore2020bandit}, it has been mentioned
that it is an open problem to characterize the minimax regret of linear bandits
in a wide variety of action spaces. In this article we present an optimal
regret lower bound for a wide class of convex action spaces.
- Abstract(参考訳): \cite{lattimore2020bandit} の著作で言及されているように、様々な作用空間における線形バンディットのミニマックス後悔を特徴付けるのはオープン問題であると言及されている。
本稿では,多岐にわたる凸作用空間に対する最適後悔下限について述べる。
関連論文リスト
- An Information-Theoretic Analysis of Thompson Sampling with Infinite Action Spaces [21.008864860723175]
本稿では,バンディット問題に対するトンプソンサンプリングアルゴリズムのベイズ的後悔について考察する。
これはRussoとVan Royが導入した情報理論フレームワークに基づいている。
論文 参考訳(メタデータ) (2025-02-04T09:12:27Z) - Information-Theoretic Minimax Regret Bounds for Reinforcement Learning based on Duality [33.907054045921306]
エージェントの目的が堅牢なポリシーを見つけることにある未知の環境で行動するエージェントについて検討する。
我々は,異なる環境パラメータに対する最大後悔を最小化するエージェントについて検討し,ミニマックス後悔の研究につながった。
本研究はマルコフ決定過程におけるミニマックス後悔に対する情報理論的境界の導出に焦点を当てる。
論文 参考訳(メタデータ) (2024-10-21T13:45:02Z) - Batched Nonparametric Contextual Bandits [21.031965676746776]
バッチ制約下での非パラメトリック文脈帯域について検討する。
最適な後悔を実現する新しいバッチ学習アルゴリズムを提案する。
我々の理論的結果は、非パラメトリックな文脈的帯域幅では、ほぼ一定数のポリシー更新が最適な後悔をもたらすことを示唆している。
論文 参考訳(メタデータ) (2024-02-27T18:06:20Z) - Minimizing Dynamic Regret on Geodesic Metric Spaces [20.353993251916982]
測地線距離空間に適用可能な「最適」オンライン学習アルゴリズムを開発した。
これは、一般的な動的後悔を考慮し、「最適」オンライン学習アルゴリズムを開発する最初の作品である。
論文 参考訳(メタデータ) (2023-02-17T02:03:29Z) - Complete Policy Regret Bounds for Tallying Bandits [51.039677652803675]
政策後悔は、適応的な敵に対してオンライン学習アルゴリズムのパフォーマンスを測定するという、よく確立された概念である。
我々は,不完全な政策後悔を効果的に最小化できる敵の制限について検討する。
我々は、$tildemathcalO(mKsqrtT)$の完全なポリシーを後悔するアルゴリズムを提供し、$tildemathcalO$表記は対数要素だけを隠す。
論文 参考訳(メタデータ) (2022-04-24T03:10:27Z) - High-Dimensional Sparse Linear Bandits [67.9378546011416]
データ・ポーア・システマティクスにおける疎線形包帯に対して、新しい$Omega(n2/3)$ dimension-free minimax regret lower boundを導出する。
また、関連する特徴に対する信号の大きさに関する追加の仮定の下で、次元のない$O(sqrtn)$ regret上界も証明する。
論文 参考訳(メタデータ) (2020-11-08T16:48:11Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - Constrained episodic reinforcement learning in concave-convex and
knapsack settings [81.08055425644037]
コンケーブ報酬と凸制約のある設定に対して、強力な理論的保証を持つモジュラー解析を提供する。
実験により,提案アルゴリズムは既存の制約付きエピソード環境において,これらの手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-06-09T05:02:44Z) - Tight Lower Bounds for Combinatorial Multi-Armed Bandits [72.56064196252498]
Combinatorial Multi-Armed Bandit 問題は、エージェントが各ラウンドで一組の腕を選択する、シーケンシャルな意思決定問題である。
最近提案されたGini重み付き滑らか度パラメータが単調報酬関数の下限を決定することを示す。
論文 参考訳(メタデータ) (2020-02-13T08:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。