論文の概要: Lipschitz Dueling Bandits over Continuous Action Spaces
- arxiv url: http://arxiv.org/abs/2604.00523v1
- Date: Wed, 01 Apr 2026 06:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.8623
- Title: Lipschitz Dueling Bandits over Continuous Action Spaces
- Title(参考訳): 連続的なアクション空間上での帯域幅によるリプシッツ
- Authors: Mudit Sharma, Shweta Jain, Vaneet Aggarwal, Ganesh Ghalme,
- Abstract要約: リプシッツ構造を持つ連続作用空間上のダリング帯域について検討する。
本稿では, ラウンドベース探索を用いて, リプシッツダリングバンドイットの最初のアルゴリズムを提案する。
我々のアルゴリズムは、連続的な作用空間上の任意のバンディットアルゴリズムによって最も達成可能な全時間地平線の観点から、対数空間のみを取る。
- 参考スコア(独自算出の注目度): 40.308173981781046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study for the first time, stochastic dueling bandits over continuous action spaces with Lipschitz structure, where feedback is purely comparative. While dueling bandits and Lipschitz bandits have been studied separately, their combination has remained unexplored. We propose the first algorithm for Lipschitz dueling bandits, using round-based exploration and recursive region elimination guided by an adaptive reference arm. We develop new analytical tools for relative feedback and prove a regret bound of $\tilde O\left(T^{\frac{d_z+1}{d_z+2}}\right)$, where $d_z$ is the zooming dimension of the near-optimal region. Further, our algorithm takes only logarithmic space in terms of the total time horizon, best achievable by any bandit algorithm over a continuous action space.
- Abstract(参考訳): 我々は、リプシッツ構造を持つ連続作用空間上の確率的デュエルバンディットを初めて研究し、フィードバックは純粋に比較される。
バンドイットとリプシッツのバンドイットは別々に研究されているが、それらの組み合わせは未調査のままである。
本稿では,適応参照アームで誘導されるラウンドベース探索と再帰領域除去を用いて,バンドイットのリプシッツダリングの最初のアルゴリズムを提案する。
我々は、相対フィードバックのための新しい解析ツールを開発し、(T^{\frac{d_z+1}{d_z+2}}\right)$\tilde O\left(T^{\frac{d_z+1}{d_z+2}}\right)$, $d_z$は、近最適領域のズーム次元であることを示す。
さらに、本アルゴリズムは、連続的な作用空間上の任意の帯域幅アルゴリズムによって達成可能な全時間水平線の対数空間のみを取る。
関連論文リスト
- Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。
われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。
我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文 参考訳(メタデータ) (2024-04-09T04:45:18Z) - Robust Lipschitz Bandits to Adversarial Corruptions [61.85150061213987]
リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続アーム集合を扱うバンディットの変種である。
本稿では,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。
我々の研究は、両タイプの敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。
論文 参考訳(メタデータ) (2023-05-29T18:16:59Z) - Nearly Minimax Algorithms for Linear Bandits with Shared Representation [86.79657561369397]
我々は、次元が$d$で、それぞれ$T$のラウンドで$M$リニアバンディットをプレイする設定を考え、これらの$M$リニアバンディットタスクは共通の$k(ll d)$次元リニア表現を共有する。
我々は$widetildeOleft(dsqrtkMT + kMsqrtTright)$ regret boundsを達成する新しいアルゴリズムを考案した。
論文 参考訳(メタデータ) (2022-03-29T15:27:13Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Smooth Bandit Optimization: Generalization to H\"older Space [37.15553727896912]
我々は、目標が累積後悔である滑らかな報酬関数のバンディット最適化を考える。
私たちの主な結果は、指数 $alpha>1$ を持つ H"older space への報酬関数の一般化です。
私たちは、$alphaleq 1$サブセット内で、既存の下限に適合する後悔率を達成することを示します。
論文 参考訳(メタデータ) (2020-12-11T01:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。