論文の概要: Indexed Minimum Empirical Divergence for Unimodal Bandits
- arxiv url: http://arxiv.org/abs/2112.01452v1
- Date: Thu, 2 Dec 2021 17:48:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 13:43:39.105620
- Title: Indexed Minimum Empirical Divergence for Unimodal Bandits
- Title(参考訳): ユニモーダルバンディットの指数付き最小経験的発散
- Authors: Hassan Saber (CRIStAL, Scool), Pierre M\'enard (OVGU), Odalric-Ambrym
Maillard (Scool)
- Abstract要約: 単調構造を最適に活用するアルゴリズムであるIMED-UBを導入する。
IMED-UBは最先端のアルゴリズムと競合することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a multi-armed bandit problem specified by a set of
one-dimensional family exponential distributions endowed with a unimodal
structure. We introduce IMED-UB, a algorithm that optimally exploits the
unimodal-structure, by adapting to this setting the Indexed Minimum Empirical
Divergence (IMED) algorithm introduced by Honda and Takemura [2015]. Owing to
our proof technique, we are able to provide a concise finite-time analysis of
IMED-UB algorithm. Numerical experiments show that IMED-UB competes with the
state-of-the-art algorithms.
- Abstract(参考訳): 一次元の家族指数分布の集合に一様構造を付与した多武装バンディット問題を考察する。
本稿では,本多と竹村が2015年に導入したインデクテッド・ミニマル・エスピリカル・ディバージェンス(IMED)アルゴリズムに適応して,この一助構造を最適に活用するアルゴリズムであるIMED-UBを紹介する。
本手法により, IMED-UBアルゴリズムの有限時間解析を簡潔に行うことができる。
数値実験により、IMED-UBは最先端のアルゴリズムと競合することが示された。
関連論文リスト
- Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - On Single-Objective Sub-Graph-Based Mutation for Solving the
Bi-Objective Minimum Spanning Tree Problem [0.0]
我々は、進化的計算を取り入れた$mathcalNP$-hard multi-objective least- spanning tree problem (moMST)の効率的な近似に寄与する。
得られた知見に基づいて、高バイアスのサブグラフベースの突然変異演算子を設計する。
その結果,サブグラフベースの演算子が文献のベースラインアルゴリズムに勝っていることを確認した。
論文 参考訳(メタデータ) (2023-05-31T22:35:17Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Optimal Algorithms for Stochastic Complementary Composite Minimization [55.26935605535377]
統計学と機械学習における正規化技術に触発され,補完的な複合化の最小化について検討した。
予測と高い確率で、新しい過剰なリスク境界を提供する。
我々のアルゴリズムはほぼ最適であり、このクラスの問題に対して、新しいより低い複雑性境界によって証明する。
論文 参考訳(メタデータ) (2022-11-03T12:40:24Z) - General Univariate Estimation-of-Distribution Algorithms [9.853329403413701]
私たちの一般的なモデルには、既存のモデルよりも効率的なEDAが含まれています。
既存のアルゴリズムの統一的な記述は、これらを統一的な分析を可能にし、遺伝的ドリフトの分析を提供することでこれを実証する。
私たちの一般的なモデルには、既存のモデルよりも効率的で、OneMaxとLeadingOnesベンチマークで示されているような、見つけにくいEDAも含まれています。
論文 参考訳(メタデータ) (2022-06-22T16:32:04Z) - A proximal-proximal majorization-minimization algorithm for nonconvex
tuning-free robust regression problems [4.261680642170457]
非回帰問題に対する PMM (proximal-proximal majorization-minimization) アルゴリズムを提案する。
提案アルゴリズムは既存の最先端アルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-06-25T15:07:13Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Forced-exploration free Strategies for Unimodal Bandits [0.0]
単調構造を利用した最初の強制探索自由戦略であるIMED-UBを紹介する。
次に, IMED-UBのKLUCBバージョンであるKLUCB-UBを導出する。
数値実験により、IMED-UBとKLUCB-UBはどちらも同様の性能を示し、最先端のアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-06-30T07:06:16Z) - An Empirical Process Approach to the Union Bound: Practical Algorithms
for Combinatorial and Linear Bandits [34.06611065493047]
本稿では、信頼度と予算設定の固定化において、純探索線形帯域問題に対する近似アルゴリズムを提案する。
サンプルの複雑性がインスタンスの幾何でスケールし、アームの数に縛られた明示的な結合を避けるアルゴリズムを提供する。
また,固定予算設定における線形帯域幅に対する最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-21T00:56:33Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。