論文の概要: Diversity-Preserving K-Armed Bandits, Revisited
- arxiv url: http://arxiv.org/abs/2010.01874v1
- Date: Mon, 5 Oct 2020 09:22:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 20:37:32.863955
- Title: Diversity-Preserving K-Armed Bandits, Revisited
- Title(参考訳): 多様性保存型K-Armedバンド、再検討
- Authors: H\'edi Hadiji (LMO, CELESTE), S\'ebastien Gerchinovitz (IMT),
Jean-Michel Loubes (IMT), Gilles Stoltz (LMO, CELESTE)
- Abstract要約: 本稿では,Celisらによって導入された多様性保全レコメンデーションのための,バンディットに基づくフレームワークについて考察する。
設定の具体的構造を用いてUPBアルゴリズムを設計し、最適混合作用が全ての動作に何らかの確率質量を与える場合の自然の場合において、分布依存的後悔を楽しむことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the bandit-based framework for diversity-preserving
recommendations introduced by Celis et al. (2019), who approached it mainly by
a reduction to the setting of linear bandits. We design a UCB algorithm using
the specific structure of the setting and show that it enjoys a bounded
distribution-dependent regret in the natural cases when the optimal mixed
actions put some probability mass on all actions (i.e., when diversity is
desirable). Simulations illustrate this fact. We also provide regret lower
bounds and briefly discuss distribution-free regret bounds.
- Abstract(参考訳): celis et al. (2019) が導入した,線形バンディット設定の削減を中心にアプローチした,バンディットに基づく多様性保全推奨フレームワークについて考察する。
設定の特定の構造を用いてUPBアルゴリズムを設計し、最適混合作用が全ての作用(つまり多様性が望ましい場合)に確率質量を課す場合、自然の場合において分布依存的後悔を享受することを示す。
シミュレーションはこの事実を示している。
また,後悔の限界を低くし,分布のない後悔の限界を簡潔に議論する。
関連論文リスト
- Proportional Response: Contextual Bandits for Simple and Cumulative
Regret Minimization [29.579719765255927]
本稿では,文脈的帯域幅設定のための効率的な帯域幅アルゴリズムのファミリーを提案する。
我々のアルゴリズムは任意の関数クラスで動作し、不特定性をモデル化するのに堅牢で、連続したアーム設定で使用できます。
論文 参考訳(メタデータ) (2023-07-05T08:34:54Z) - Invariant Lipschitz Bandits: A Side Observation Approach [18.688474183114085]
不変リプシッツ・バンディット・セッティング (invariant Lipschitz bandit set) について検討し、報酬関数と腕の集合を変換群の下で保存する。
我々は、グループ軌道を用いた側面観測を自然に統合する textttUniformMesh-N というアルゴリズムを導入する。
我々は、群が有限であることを考えると、群の濃度に依存するような改善された後悔の上界を証明する。
論文 参考訳(メタデータ) (2022-12-14T22:12:32Z) - Pareto Regret Analyses in Multi-objective Multi-armed Bandit [22.17126026244685]
多目的多武装バンディットの最適性について検討する。
我々は,多目的多目的バンディット設定の事前情報と不要情報の両方を仮定する新しいアルゴリズムを提案する。
アルゴリズムは、対数設定において最適であり、同時に設定において対数係数までほぼ最適である。
論文 参考訳(メタデータ) (2022-12-01T21:44:27Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。