論文の概要: Offline-to-online hyperparameter transfer for stochastic bandits
- arxiv url: http://arxiv.org/abs/2501.02926v1
- Date: Mon, 06 Jan 2025 11:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:06:33.020873
- Title: Offline-to-online hyperparameter transfer for stochastic bandits
- Title(参考訳): 確率的包帯に対するオフライン-オンライン間ハイパーパラメータ転送
- Authors: Dravyansh Sharma, Arun Sai Suggala,
- Abstract要約: 本稿では,バンディット問題から収集したオフラインデータにアクセス可能な転送学習環境について検討する。
タスク間(タスク数)とタスク内(タスク毎のアームプル数)のバウンダリを提供する。
UCBとLinUCBの探索パラメータやGP-UCBのチューニングノイズパラメータなど,いくつかの古典的アルゴリズムに適用した。
- 参考スコア(独自算出の注目度): 14.019191147891974
- License:
- Abstract: Classic algorithms for stochastic bandits typically use hyperparameters that govern their critical properties such as the trade-off between exploration and exploitation. Tuning these hyperparameters is a problem of great practical significance. However, this is a challenging problem and in certain cases is information theoretically impossible. To address this challenge, we consider a practically relevant transfer learning setting where one has access to offline data collected from several bandit problems (tasks) coming from an unknown distribution over the tasks. Our aim is to use this offline data to set the hyperparameters for a new task drawn from the unknown distribution. We provide bounds on the inter-task (number of tasks) and intra-task (number of arm pulls for each task) sample complexity for learning near-optimal hyperparameters on unseen tasks drawn from the distribution. Our results apply to several classic algorithms, including tuning the exploration parameters in UCB and LinUCB and the noise parameter in GP-UCB. Our experiments indicate the significance and effectiveness of the transfer of hyperparameters from offline problems in online learning with stochastic bandit feedback.
- Abstract(参考訳): 確率的盗賊のための古典的なアルゴリズムは、通常、探索と搾取の間のトレードオフのような重要な特性を管理するハイパーパラメータを使用する。
これらのハイパーパラメータをチューニングすることは、非常に実践的な重要性の問題である。
しかし、これは難しい問題であり、ある場合では理論的に不可能な情報である。
この課題に対処するために、タスク上の未知の分布から得られる複数の帯域問題(タスク)から収集されたオフラインデータにアクセス可能な、実際に関連する転送学習環境について検討する。
我々の目標は、このオフラインデータを使用して、未知の分布から引き出された新しいタスクのハイパーパラメータを設定することです。
本研究では,タスク間(タスク数)とタスク内(タスク毎のアームプル数)の境界値を用いて,その分布から引き出された未確認タスクに対して,最適に近いハイパーパラメータを学習する。
この結果は,UCBとLinUCBの探索パラメータとGP-UCBの雑音パラメータの調整など,古典的なアルゴリズムに適用できる。
本実験は,確率的バンディットフィードバックを用いたオンライン学習におけるオフライン問題からのハイパーパラメータの移動の重要性と有効性を示す。
関連論文リスト
- Sample complexity of data-driven tuning of model hyperparameters in neural networks with structured parameter-dependent dual function [24.457000214575245]
固定問題インスタンス上での実用関数の不連続性と発振を特徴付ける新しい手法を提案する。
これは、実用関数の族における学習理論の複雑さが有界であることを示すのに使うことができる。
論文 参考訳(メタデータ) (2025-01-23T15:10:51Z) - Hyper: Hyperparameter Robust Efficient Exploration in Reinforcement Learning [48.81121647322492]
textbfHyperは関数近似設定下では有効に有効であり、様々な環境でその魅力的な性能と堅牢性を実証的に示す。
textbfHyperは、探索の訪問を効果的に調整し、安定したトレーニングを確保するためにエクスプロイトを分離することで、問題を広範囲に緩和する。
論文 参考訳(メタデータ) (2024-12-04T23:12:41Z) - Revised Regularization for Efficient Continual Learning through Correlation-Based Parameter Update in Bayesian Neural Networks [20.00857639162206]
継続的な学習シナリオでは、各ステップにネットワークパラメータを格納して知識を保持することが課題となる。
KL発散リスクを考慮した変分推論による不確実なノード更新時の破滅的忘れ込み
本稿では,ストレージ要求を大幅に低減するパラメータ分布学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T15:11:02Z) - Efficient Hyperparameter Importance Assessment for CNNs [1.7778609937758323]
本稿では,畳み込みニューラルネットワーク(CNN)におけるハイパーパラメータの重み付けを,N-RReliefFというアルゴリズムを用いて定量化する。
我々は10の人気のある画像分類データセットから1万以上のCNNモデルをトレーニングし、広範囲にわたる研究を行う。
論文 参考訳(メタデータ) (2024-10-11T15:47:46Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z) - Syndicated Bandits: A Framework for Auto Tuning Hyper-parameters in
Contextual Bandit Algorithms [74.55200180156906]
文脈的盗賊問題は、探索と搾取の間のトレードオフをモデル化する。
我々のSyndicated Banditsフレームワークは最適な後悔の上限を達成できることを示す。
論文 参考訳(メタデータ) (2021-06-05T22:30:21Z) - Using a thousand optimization tasks to learn hyperparameter search
strategies [53.318615663332274]
本稿では、ニューラルネットワークのトレーニングと評価に使用するニューラルネットワークのデータセットであるTaskSetを紹介する。
TaskSetはそのサイズと多様性に特有で、完全な接続または畳み込みネットワークによるイメージ分類から変分オートエンコーダ、さまざまなデータセット上の非ボリューム保存フローまで、数千以上のタスクを含んでいる。
論文 参考訳(メタデータ) (2020-02-27T02:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。