論文の概要: Efficient and Optimal Algorithms for Contextual Dueling Bandits under
Realizability
- arxiv url: http://arxiv.org/abs/2111.12306v1
- Date: Wed, 24 Nov 2021 07:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 21:12:57.036044
- Title: Efficient and Optimal Algorithms for Contextual Dueling Bandits under
Realizability
- Title(参考訳): 実現可能性を考慮したコンテクストデューリングバンディットの効率的最適アルゴリズム
- Authors: Aadirupa Saha and Akshay Krishnamurthy
- Abstract要約: 我々は,学習者が文脈情報を用いて2つの決定を下す連続的な決定設定であるK$コンテキストデュエルバンディット問題について検討するが,一方の判断が他方よりも優れていることを示唆する強調基準に基づくフィードバックのみを観察する。
提案手法は, 最善応答後悔という新たな概念に対して, 最善応答後悔に対する最適後悔率を実現するアルゴリズムである。
- 参考スコア(独自算出の注目度): 59.81339109121384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the $K$-armed contextual dueling bandit problem, a sequential
decision making setting in which the learner uses contextual information to
make two decisions, but only observes \emph{preference-based feedback}
suggesting that one decision was better than the other. We focus on the regret
minimization problem under realizability, where the feedback is generated by a
pairwise preference matrix that is well-specified by a given function class
$\mathcal F$. We provide a new algorithm that achieves the optimal regret rate
for a new notion of best response regret, which is a strictly stronger
performance measure than those considered in prior works. The algorithm is also
computationally efficient, running in polynomial time assuming access to an
online oracle for square loss regression over $\mathcal F$. This resolves an
open problem of Dud\'ik et al. [2015] on oracle efficient, regret-optimal
algorithms for contextual dueling bandits.
- Abstract(参考訳): 我々は,学習者が文脈情報を用いて2つの意思決定を行う逐次的意思決定問題であるK$armed contextual dueling bandit問題について検討するが,一方の判断が他方よりも優れていることを示唆する「emph{preference-based feedback"のみを観察する。
そこでは、与えられた関数クラス$\mathcal F$で適切に指定されたペアの選好行列によってフィードバックが生成される。
先行研究で検討されているものよりも厳格な性能尺度である「ベストレスポンス後悔」という新しい概念の最適後悔率を達成する新しいアルゴリズムを提案する。
このアルゴリズムは計算効率も良く、オンラインのオラクルへのアクセスを$\mathcal F$を超える正方損失の回帰として多項式時間で実行する。
これは Dud\'ik et al の開問題を解く。
2015年]oracleのコンテクスト・デュエル・バンディットのための効率的で後悔の最適化アルゴリズムについて。
関連論文リスト
- Distributed Online Bandit Nonconvex Optimization with One-Point Residual Feedback via Dynamic Regret [10.700891331004799]
本稿では,非損失関数を用いた分散オンライン帯域最適化問題について検討する。
プレイヤーは敵を選択し、そのプレイヤーに任意の非線形損失関数を割り当てる。
予想されるアルゴリズムの後悔は、2点偏差を用いた既存のアルゴリズムに匹敵する。
論文 参考訳(メタデータ) (2024-09-24T02:37:33Z) - Second Order Methods for Bandit Optimization and Control [34.51425758864638]
我々は,大規模な凸関数に対して,このアルゴリズムが最適($kappa$-2020と呼ぶ凸関数の観点で)となることを示す。
また,メモリを用いたオンライン凸最適化への2次帯域幅アルゴリズムの適用について検討した。
論文 参考訳(メタデータ) (2024-02-14T04:03:38Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Contextual Bandits and Imitation Learning via Preference-Based Active
Queries [17.73844193143454]
本研究では,学習者が実行された行動報酬の直接的な知識を欠いている文脈的包帯と模倣学習の問題を考察する。
その代わり、学習者は各ラウンドのエキスパートに積極的に問い合わせて2つのアクションを比較し、ノイズの多い好みのフィードバックを受け取ることができる。
学習者の目的は、実行されたアクションに関連する後悔を最小限に抑えると同時に、専門家が行った比較クエリの数を最小化することである。
論文 参考訳(メタデータ) (2023-07-24T16:36:04Z) - Adapting to Misspecification in Contextual Bandits [82.55565343668246]
我々は、$varepsilon$-misspecified contextual banditsに対して、新しいオラクル効率アルゴリズム群を導入する。
我々は、未知の不特定値に対して最適な$O(dsqrtT + varepsilonsqrtdT)$ regret boundを達成する最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2021-07-12T21:30:41Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Efficient Optimistic Exploration in Linear-Quadratic Regulators via
Lagrangian Relaxation [107.06364966905821]
線形2次レギュレータ(LQR)設定における探索・探索ジレンマについて検討した。
有限 MDP に対する楽観的アルゴリズムで用いられる拡張値反復アルゴリズムに着想を得て,Oulq の楽観的最適化を緩和することを提案する。
我々は、少なくとも$Obig(log (1/epsilon)big)$ Riccati方程式を解くことで、$epsilon$-OptimisticControllerを効率的に計算できることを示した。
論文 参考訳(メタデータ) (2020-07-13T16:30:47Z) - Model Selection in Contextual Stochastic Bandit Problems [51.94632035240787]
基本アルゴリズムを選択できるメタアルゴリズムを開発した。
基本アルゴリズムの1つが$O(sqrtT)$後悔している場合でも、一般的には$Omega(sqrtT)$後悔よりも良いものを得ることはできません。
論文 参考訳(メタデータ) (2020-03-03T18:46:34Z) - Regret Minimization in Stochastic Contextual Dueling Bandits [40.17224226373741]
我々は、コンテキスト設定において、$K$武装デュエルバンディットの問題を考察する。
提案手法は, それぞれ, 後悔の保証を施した2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T06:36:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。