Fugu-MT 論文翻訳(概要): Diversity-Preserving K-Armed Bandits, Revisited

論文の概要: Diversity-Preserving K-Armed Bandits, Revisited

arxiv url: http://arxiv.org/abs/2010.01874v1
Date: Mon, 5 Oct 2020 09:22:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 20:37:32.863955
Title: Diversity-Preserving K-Armed Bandits, Revisited
Title（参考訳）: 多様性保存型K-Armedバンド、再検討
Authors: H\'edi Hadiji (LMO, CELESTE), S\'ebastien Gerchinovitz (IMT), Jean-Michel Loubes (IMT), Gilles Stoltz (LMO, CELESTE)
Abstract要約: 本稿では,Celisらによって導入された多様性保全レコメンデーションのための,バンディットに基づくフレームワークについて考察する。設定の具体的構造を用いてUPBアルゴリズムを設計し、最適混合作用が全ての動作に何らかの確率質量を与える場合の自然の場合において、分布依存的後悔を楽しむことを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the bandit-based framework for diversity-preserving recommendations introduced by Celis et al. (2019), who approached it mainly by a reduction to the setting of linear bandits. We design a UCB algorithm using the specific structure of the setting and show that it enjoys a bounded distribution-dependent regret in the natural cases when the optimal mixed actions put some probability mass on all actions (i.e., when diversity is desirable). Simulations illustrate this fact. We also provide regret lower bounds and briefly discuss distribution-free regret bounds.
Abstract（参考訳）: celis et al. (2019) が導入した,線形バンディット設定の削減を中心にアプローチした,バンディットに基づく多様性保全推奨フレームワークについて考察する。設定の特定の構造を用いてUPBアルゴリズムを設計し、最適混合作用が全ての作用(つまり多様性が望ましい場合)に確率質量を課す場合、自然の場合において分布依存的後悔を享受することを示す。シミュレーションはこの事実を示している。また,後悔の限界を低くし,分布のない後悔の限界を簡潔に議論する。

関連論文リスト

Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals [28.94461817548213]
条件付き良性環境と任意の環境下での学習性能におけるトレードオフの可能性について,上界と下界の整合性を証明した。この問題を線形バンディット設定に還元することで、最初に因果バンディットのインスタンス依存境界を求める。
論文参考訳（メタデータ） (2024-07-01T04:12:15Z)
Stochastic Rising Bandits [40.32303434592863]
本研究は、腕が単調に非減少している、安静時および安静時バンディットの特定の症例について検討する。この特性により、ペイオフの規則性を利用して、厳密な後悔の限界を提供する、特別に構築されたアルゴリズムを設計することができる。我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文参考訳（メタデータ） (2022-12-07T17:30:45Z)
Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget [4.226118870861363]
固定予算の下で、制約のある純粋な探索、多武装バンディットの定式化を検討する。本稿では,Successive Rejects フレームワークに基づく textscConstrained-SR というアルゴリズムを提案する。また, ある特別な場合において, 関連する崩壊速度は情報理論的下界に対してほぼ最適であることを示した。
論文参考訳（メタデータ） (2022-11-27T08:58:16Z)
Contextual bandits with concave rewards, and an application to fair ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文参考訳（メタデータ） (2022-10-18T16:11:55Z)
Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。 BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文参考訳（メタデータ） (2021-02-25T17:36:44Z)
Nonstationary Stochastic Multiarmed Bandits: UCB Policies and Minimax Regret [5.1398743023989555]
我々は、各腕に関連する報酬の分布が時間変動であると仮定する非定常的マルチアーミングバンディット(MAB)問題を研究する。提案手法は, 変動予算を満たした報酬分配系列の組に対する後悔の前提となる, 最悪の場合の後悔という観点から, 提案手法の性能を特徴付ける。
論文参考訳（メタデータ） (2021-01-22T07:34:09Z)
Nearly Dimension-Independent Sparse Linear Bandit over Small Action Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文参考訳（メタデータ） (2020-09-04T04:10:39Z)
On Lower Bounds for Standard and Robust Gaussian Process Bandit Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文参考訳（メタデータ） (2020-08-20T03:48:14Z)
Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文参考訳（メタデータ） (2020-06-22T16:06:25Z)
Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-17T22:32:19Z)
Lower bounds in multiple testing: A framework based on derandomized proxies [107.69746750639584]
本稿では, 各種コンクリートモデルへの適用例を示す, デランドマイズに基づく分析戦略を提案する。これらの下界のいくつかを数値シミュレーションし、Benjamini-Hochberg (BH) アルゴリズムの実際の性能と密接な関係を示す。
論文参考訳（メタデータ） (2020-05-07T19:59:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。