論文の概要: Contextual Bandit Optimization with Pre-Trained Neural Networks
- arxiv url: http://arxiv.org/abs/2501.06258v1
- Date: Thu, 09 Jan 2025 10:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:23:11.309510
- Title: Contextual Bandit Optimization with Pre-Trained Neural Networks
- Title(参考訳): 事前学習ニューラルネットワークを用いたコンテキスト帯域最適化
- Authors: Mikhail Terekhov,
- Abstract要約: より小さなモデルの体制において、事前学習がいかに役立つかを検討する。
最後の層の次元と作用数$K$が水平線$T$よりもはるかに小さいとき、E2TCのサブ線形後悔を示す。
弱い訓練体制では、最後の層のみが学習されると、問題は不特定な線形バンディットへと減少する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Bandit optimization is a difficult problem, especially if the reward model is high-dimensional. When rewards are modeled by neural networks, sublinear regret has only been shown under strong assumptions, usually when the network is extremely wide. In this thesis, we investigate how pre-training can help us in the regime of smaller models. We consider a stochastic contextual bandit with the rewards modeled by a multi-layer neural network. The last layer is a linear predictor, and the layers before it are a black box neural architecture, which we call a representation network. We model pre-training as an initial guess of the weights of the representation network provided to the learner. To leverage the pre-trained weights, we introduce a novel algorithm we call Explore Twice then Commit (E2TC). During its two stages of exploration, the algorithm first estimates the last layer's weights using Ridge regression, and then runs Stochastic Gradient Decent jointly on all the weights. For a locally convex loss function, we provide conditions on the pre-trained weights under which the algorithm can learn efficiently. Under these conditions, we show sublinear regret of E2TC when the dimension of the last layer and number of actions $K$ are much smaller than the horizon $T$. In the weak training regime, when only the last layer is learned, the problem reduces to a misspecified linear bandit. We introduce a measure of misspecification $\epsilon_0$ for this bandit and use it to provide bounds $O(\epsilon_0\sqrt{d}KT+(KT)^{4 /5})$ or $\tilde{O}(\epsilon_0\sqrt{d}KT+d^{1 /3}(KT)^{2 /3})$ on the regret, depending on regularization strength. The first of these bounds has a dimension-independent sublinear term, made possible by the stochasticity of contexts. We also run experiments to evaluate the regret of E2TC and sample complexity of its exploration in practice.
- Abstract(参考訳): 特に報酬モデルが高次元である場合、帯域最適化は難しい問題である。
報酬がニューラルネットワークによってモデル化される場合、ニューラルネットワークが極端に広い場合、強い仮定の下では、サブ線形後悔のみが示される。
この論文では、より小さなモデルの体制において、事前学習がいかに役立つかを考察する。
多層ニューラルネットワークによってモデル化された報酬を伴う確率的文脈的帯域幅を考える。
最後のレイヤは線形予測器であり、その前のレイヤは、表現ネットワークと呼ばれるブラックボックスニューラルアーキテクチャである。
我々は,学習者に提供される表現ネットワークの重みの初等推定として事前学習をモデル化する。
事前学習した重みを利用するために,Explore Twice then Commit (E2TC) と呼ぶ新しいアルゴリズムを導入する。
探索の2つの段階において、アルゴリズムはまずリッジ回帰を用いて最終層の重みを推定し、次に全ての重みについて確率勾配デセントを共同で実行した。
局所凸損失関数に対して、アルゴリズムが効率的に学習できる事前訓練された重みに関する条件を提供する。
これらの条件下では、最終層の次元と作用数$K$が地平線$T$よりもはるかに小さいとき、E2TCのサブ線形後悔を示す。
弱い訓練体制では、最後の層のみが学習されると、問題は不特定な線形バンディットへと減少する。
このバンドイットに対して、$\epsilon_0$ という不特定値の測度を導入し、それを、正規化強度に依存して、後悔に応じて$O(\epsilon_0\sqrt{d}KT+(KT)^{4 /5})$ または $\tilde{O}(\epsilon_0\sqrt{d}KT+d^{1 /3}(KT)^{2 /3})$ の有界値として使用する。
これらの境界の第一は次元に依存しない部分線型項を持ち、文脈の確率性によって可能となる。
また,E2TCの後悔とサンプルの複雑さを実際に評価するための実験も行った。
関連論文リスト
- Sharper Guarantees for Learning Neural Network Classifiers with Gradient Methods [43.32546195968771]
本研究では,スムーズなアクティベーションを有するニューラルネットワークに対する勾配法におけるデータ依存収束と一般化挙動について検討する。
我々の結果は、よく確立されたRadecher複雑性に基づく境界の欠点を改善した。
XOR分布の分類において、NTK体制の結果に対して大きなステップサイズが大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2024-10-13T21:49:29Z) - Contextual Bandits with Online Neural Regression [46.82558739203106]
オンライン回帰と関連するニューラルコンテキスト帯域(NeuCBs)におけるニューラルネットワークの利用について検討する。
既存の結果をワイドネットワークで使うと、$mathcalO(sqrtT)$ regretを2乗の損失でオンラインレグレッションで簡単に表示できる。
正方形損失とKL損失の両方を持つオンラインレグレッションに対して$mathcalO(log T)$ regretを示し、その後、それぞれ$tildemathcalO(sqrtKT)$と$tildemathcalOに変換する。
論文 参考訳(メタデータ) (2023-12-12T10:28:51Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Training Multi-Layer Over-Parametrized Neural Network in Subquadratic
Time [12.348083977777833]
我々は、損失関数によって引き起こされる経験的リスクを最小限に抑えるために、多層超並列ニューラルネットワークを訓練する問題を考察する。
本研究では,イテレーション毎のトレーニングコストの削減方法を示す。
論文 参考訳(メタデータ) (2021-12-14T18:13:36Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。