Fugu-MT 論文翻訳(概要): Online Continuous Hyperparameter Optimization for Contextual Bandits

論文の概要: Online Continuous Hyperparameter Optimization for Contextual Bandits

arxiv url: http://arxiv.org/abs/2302.09440v1
Date: Sat, 18 Feb 2023 23:31:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-21 18:38:12.655234
Title: Online Continuous Hyperparameter Optimization for Contextual Bandits
Title（参考訳）: コンテキスト帯域に対するオンライン連続ハイパーパラメータ最適化
Authors: Yue Kang, Cho-Jui Hsieh, Thomas C. M. Lee
Abstract要約: 文脈的バンディット問題では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。理論上はサブ線形の後悔を達成でき、合成データと実データの両方において一貫してより良い結果が得られることを示す。
参考スコア（独自算出の注目度）: 82.18146534971156
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In stochastic contextual bandit problems, an agent sequentially makes actions from a time-dependent action set based on past experience to minimize the cumulative regret. Like many other machine learning algorithms, the performance of bandits heavily depends on their multiple hyperparameters, and theoretically derived parameter values may lead to unsatisfactory results in practice. Moreover, it is infeasible to use offline tuning methods like cross validation to choose hyperparameters under the bandit environment, as the decisions should be made in real time. To address this challenge, we propose the first online continuous hyperparameter tuning framework for contextual bandits to learn the optimal parameter configuration within a search space on the fly. Specifically, we use a double-layer bandit framework named CDT (Continuous Dynamic Tuning) and formulate the hyperparameter optimization as a non-stationary continuum-armed bandit, where each arm represents a combination of hyperparameters, and the corresponding reward is the algorithmic result. For the top layer, we propose the Zooming TS algorithm that utilizes Thompson Sampling (TS) for exploration and a restart technique to get around the switching environment. The proposed CDT framework can be easily used to tune contextual bandit algorithms without any pre-specified candidate set for hyperparameters. We further show that it could achieve sublinear regret in theory and performs consistently better on both synthetic and real datasets in practice.
Abstract（参考訳）: 確率的文脈的包帯問題では、エージェントは過去の経験に基づいて設定された時間依存アクションから順次アクションを行い、累積的後悔を最小限に抑える。他の多くの機械学習アルゴリズムと同様に、バンディットのパフォーマンスは複数のハイパーパラメータに大きく依存しており、理論的に導出されたパラメータ値は実際に不満足な結果をもたらす可能性がある。さらに、リアルタイムに決定を行う必要があるため、cross validationのようなオフラインチューニングメソッドを使用して、bandit環境下でハイパーパラメータを選択することも不可能である。そこで本研究では,コンテキストバンディットに対して,検索空間内の最適パラメータ構成を学習するためのオンライン連続ハイパーパラメータチューニングフレームワークを提案する。具体的には、CDT(Continuous Dynamic Tuning)と呼ばれる2層バンドレートフレームワークを用いて、ハイパーパラメータ最適化を非定常連続武器バンディットとして定式化し、各アームがハイパーパラメータの組み合わせを表す。上位層に対して,トンプソンサンプリング(TS)を探索に用いるZooming TSアルゴリズムと,スイッチング環境を回避するための再起動手法を提案する。提案したCDTフレームワークは,ハイパーパラメータの候補セットを指定せずに,文脈的帯域幅アルゴリズムのチューニングに容易に利用できる。さらに,理論上はサブリニアな後悔を達成でき,実際に合成データと実データの両方において一貫してよりよい結果が得られることを示した。

関連論文リスト

BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms [101.9736063064503]
大規模言語モデル(LLM)の推論を高速化する一般的な手法として、投機的復号法が登場した。本稿では,テキスト生成時に投機的復号化のためのハイパーパラメータの設定を適応的に選択する学習自由オンライン学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-21T05:56:31Z)
HyperArm Bandit Optimization: A Novel approach to Hyperparameter Optimization and an Analysis of Bandit Algorithms in Stochastic and Adversarial Settings [0.0]
本稿では,機械学習モデルにおけるハイパーパラメータチューニングに EXP3 を適用した新しいフレームワークである HyperArm Bandit Optimization (HABO) を提案する。 HABOは、個々のハイパーパラメータをスーパーアームとして扱い、潜在的な構成をサブアームとして扱い、動的リソース割り当てと効率的な探索を可能にする。
論文参考訳（メタデータ） (2025-03-13T11:50:28Z)
Empirical Bound Information-Directed Sampling for Norm-Agnostic Bandits [0.0]
本稿では,アキュメレーションデータを用いて,真のパラメータノルム上の高確率上限を反復的に改善する,新しい頻繁なIDSアルゴリズムを提案する。提案手法は,当初仮定されたパラメータノルム境界に依存しないアルゴリズムに対する後悔境界を確立し,その手法が最先端IDSおよびUPBアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2025-03-07T02:33:37Z)
Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文参考訳（メタデータ） (2023-07-05T13:52:10Z)
A Framework for History-Aware Hyperparameter Optimisation in Reinforcement Learning [8.659973888018781]
強化学習(RL)システムは、システムの性能に影響を与える一連の初期条件に依存する。これらのトレードオフを軽減するため,複雑なイベント処理と時間モデルの統合に基づくフレームワークを提案する。提案手法を,RLの変種であるDQNを用いた5Gモバイル通信ケーススタディで検証した。
論文参考訳（メタデータ） (2023-03-09T11:30:40Z)
AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文参考訳（メタデータ） (2022-03-15T19:25:01Z)
Syndicated Bandits: A Framework for Auto Tuning Hyper-parameters in Contextual Bandit Algorithms [74.55200180156906]
文脈的盗賊問題は、探索と搾取の間のトレードオフをモデル化する。我々のSyndicated Banditsフレームワークは最適な後悔の上限を達成できることを示す。
論文参考訳（メタデータ） (2021-06-05T22:30:21Z)
Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文参考訳（メタデータ） (2021-02-17T21:03:05Z)
Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。 RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文参考訳（メタデータ） (2021-02-15T19:36:18Z)
Quantity vs. Quality: On Hyperparameter Optimization for Deep Reinforcement Learning [7.559006677497745]
強化学習アルゴリズムは、異なるランダムシードによるトレーニング実行間のパフォーマンスの強いばらつきを示すことができる。我々は、悪いパフォーマーのプルーニングにより、大量のハイパーパラメータ設定を探索するのが良いか、あるいは、繰り返しを用いて収集結果の品質を目標とする方がよいかをベンチマークする。
論文参考訳（メタデータ） (2020-07-29T05:12:34Z)
Automatic Setting of DNN Hyper-Parameters by Mixing Bayesian Optimization and Tuning Rules [0.6875312133832078]
トレーニングおよび検証セット上で,ネットワークの結果を評価し解析するための新しいアルゴリズムを構築した。我々は、一連のチューニングルールを使用して、新しいハイパーパラメータと/またはハイパーパラメータ検索スペースを減らし、より良い組み合わせを選択する。
論文参考訳（メタデータ） (2020-06-03T08:53:48Z)
Weighted Random Search for CNN Hyperparameter Optimization [0.0]
本稿では、ランダム探索(RS)と確率的欲求を組み合わせた重み付きランダム探索(WRS)手法を提案する。基準は、ハイパーパラメーター値の試験された組み合わせの同じ数内で達成される分類精度である。我々の実験によると、WRSアルゴリズムは他の手法よりも優れています。
論文参考訳（メタデータ） (2020-03-30T09:40:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。