論文の概要: Lifelong Bandit Optimization: No Prior and No Regret
- arxiv url: http://arxiv.org/abs/2210.15513v3
- Date: Tue, 20 Jun 2023 08:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 05:18:54.252221
- Title: Lifelong Bandit Optimization: No Prior and No Regret
- Title(参考訳): Lifelong Bandit Optimization:前も後もなし、レグレットなし
- Authors: Felix Schur, Parnian Kassraie, Jonas Rothfuss, Andreas Krause
- Abstract要約: 我々は,過去の経験から学習することで環境に適応するアルゴリズムであるLIBOを開発した。
カーネルが未知だが、すべてのタスク間で共有されるカーネル構造を仮定する。
我々のアルゴリズムは、任意のカーネル化または線形バンディットアルゴリズムと組み合わせて、最適な性能を保証できる。
- 参考スコア(独自算出の注目度): 70.94238868711952
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning algorithms are often repeatedly applied to problems with
similar structure over and over again. We focus on solving a sequence of bandit
optimization tasks and develop LIBO, an algorithm which adapts to the
environment by learning from past experience and becomes more sample-efficient
in the process. We assume a kernelized structure where the kernel is unknown
but shared across all tasks. LIBO sequentially meta-learns a kernel that
approximates the true kernel and solves the incoming tasks with the latest
kernel estimate. Our algorithm can be paired with any kernelized or linear
bandit algorithm and guarantees oracle optimal performance, meaning that as
more tasks are solved, the regret of LIBO on each task converges to the regret
of the bandit algorithm with oracle knowledge of the true kernel. Naturally, if
paired with a sublinear bandit algorithm, LIBO yields a sublinear lifelong
regret. We also show that direct access to the data from each task is not
necessary for attaining sublinear regret. We propose F-LIBO, which solves the
lifelong problem in a federated manner.
- Abstract(参考訳): 機械学習アルゴリズムは、しばしば同様の構造を持つ問題に何度も適用される。
我々は,バンディット最適化の一連の課題を解決することに集中し,過去の経験から学習し,その過程でよりサンプル効率の高い環境適応アルゴリズムであるliboを開発した。
カーネルが未知だがすべてのタスク間で共有されるカーネル構造を仮定する。
LIBOは、真核を近似したカーネルを順次メタ学習し、最新のカーネル推定で入力タスクを解決する。
提案アルゴリズムは,任意のカーネル化あるいは線形バンディットアルゴリズムと組み合わせて,オラクル最適性能を保証する。つまり,タスク数が増えるにつれて,各タスクに対するLIBOの後悔は,真のカーネルのオラクル知識によるバンディットアルゴリズムの後悔に収束する。
当然、sublinear banditアルゴリズムとペアリングすれば、liboはsublinear lifelong regretとなる。
また,各タスクからのデータへの直接アクセスは,サブリニアな後悔を実現するために必要ではないことを示す。
本稿では,F-LIBOを提案する。
関連論文リスト
- Learning Arithmetic Formulas in the Presence of Noise: A General
Framework and Applications to Unsupervised Learning [4.10375234787249]
教師なし学習問題に対する効率的なアルゴリズム設計のための枠組みを提案する。
我々のフレームワークは,雑音の存在下で演算回路を学習するメタアルゴリズムに基づいている。
論文 参考訳(メタデータ) (2023-11-13T12:26:25Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Efficient Convex Algorithms for Universal Kernel Learning [46.573275307034336]
カーネルの理想的な集合: 線形パラメータ化(トラクタビリティ)を認める; すべてのカーネルの集合に密着する(正確性)。
従来のカーネル最適化アルゴリズムは分類に限られており、計算に複雑なセミデフィニティプログラミング(SDP)アルゴリズムに依存していた。
本稿では,従来のSDP手法と比較して計算量を大幅に削減するSVD-QCQPQPアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-15T04:57:37Z) - An Optimization-based Algorithm for Non-stationary Kernel Bandits
without Prior Knowledge [23.890686553141798]
本研究では,非定常性の度合いの事前知識を必要としない非定常カーネル帯域幅のアルゴリズムを提案する。
我々のアルゴリズムは、非定常カーネル帯域設定に関する以前の研究よりも、より厳密な動的後悔を享受する。
論文 参考訳(メタデータ) (2022-05-29T21:32:53Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - No-regret Algorithms for Multi-task Bayesian Optimization [26.13594355150718]
非パラメトリックベイズ最適化における未知ベクトル値関数の多目的最適化(MOO)を考える。
目的のランダムなスキャラライズに基づく2つの新しいBOアルゴリズムを開発した。
合成MOO問題と実時間MOO問題の両方にアルゴリズムをベンチマークし、マルチタスクカーネルで学習することで得られる利点を示す。
論文 参考訳(メタデータ) (2020-08-20T10:55:20Z) - A New Algorithm for Tessellated Kernel Learning [4.264192013842097]
カーネルの理想的な集合として、線形パラメータ化(トラクタビリティ)を認めること、(堅牢性のために)すべてのカーネルの集合に密着すること、(正確性のために)普遍的であること、がある。
最近提案されたTesselated Kernels (TK) は、3つの基準を満たす唯一の既知のクラスである。
対照的に、提案した2ステップのアルゴリズムは1万個のデータポイントにスケールし、回帰問題にまで拡張する。
論文 参考訳(メタデータ) (2020-06-13T18:33:31Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Lagrangian Decomposition for Neural Network Verification [148.0448557991349]
ニューラルネットワーク検証の基本的なコンポーネントは、出力が取ることのできる値のバウンダリの計算である。
ラグランジアン分解に基づく新しい手法を提案する。
ランニングタイムのごく一部で、既成の解法に匹敵するバウンダリが得られることを示す。
論文 参考訳(メタデータ) (2020-02-24T17:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。