論文の概要: Neural Logistic Bandits
- arxiv url: http://arxiv.org/abs/2505.02069v1
- Date: Sun, 04 May 2025 11:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.409531
- Title: Neural Logistic Bandits
- Title(参考訳): ニューラルロジスティックバンド
- Authors: Seoungbin Bae, Dabeen Lee,
- Abstract要約: 本稿では,ニューラルネットワークを用いたロジスティックリンク機能において,未知の報酬関数を学習することが主な課題であるニューラルネットワークロジスティックバンディットの問題について検討する。
本稿では, 自己正規化ベクトル値マルティンタに対するベルンシュタイン型不等式を導入し, 周囲次元への直接依存を回避した。
We propose two algorithm that guarantee regret upper bounds of order $widetildeO (widetildedsqrtkappa T)$ and $widetildeO (widetildedsqrtT/)
- 参考スコア(独自算出の注目度): 2.325021848829375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of neural logistic bandits, where the main task is to learn an unknown reward function within a logistic link function using a neural network. Existing approaches either exhibit unfavorable dependencies on $\kappa$, where $1/\kappa$ represents the minimum variance of reward distributions, or suffer from direct dependence on the feature dimension $d$, which can be huge in neural network-based settings. In this work, we introduce a novel Bernstein-type inequality for self-normalized vector-valued martingales that is designed to bypass a direct dependence on the ambient dimension. This lets us deduce a regret upper bound that grows with the effective dimension $\widetilde{d}$, not the feature dimension, while keeping a minimal dependence on $\kappa$. Based on the concentration inequality, we propose two algorithms, NeuralLog-UCB-1 and NeuralLog-UCB-2, that guarantee regret upper bounds of order $\widetilde{O}(\widetilde{d}\sqrt{\kappa T})$ and $\widetilde{O}(\widetilde{d}\sqrt{T/\kappa})$, respectively, improving on the existing results. Lastly, we report numerical results on both synthetic and real datasets to validate our theoretical findings.
- Abstract(参考訳): 本稿では,ニューラルネットワークを用いたロジスティックリンク機能において,未知の報酬関数を学習することが主な課題であるニューラルネットワークロジスティックバンディットの問題について検討する。
既存のアプローチは、$\kappa$に好ましくない依存関係を示す。$/\kappa$は、報酬分布の最小分散を表す。
本研究では, 自己正規化ベクトル値マルティンゲールに対するベルンシュタイン型不等式を導入し, 周囲次元への直接依存を回避した。
これにより、実効次元$\widetilde{d}$で成長する後悔の上界は、特徴次元ではなく、$\kappa$への最小依存を保ちながら導出することができる。
濃度不等式に基づいて,NuralLog-UCB-1 と NeuralLog-UCB-2 の2つのアルゴリズムを提案し,それぞれ$\widetilde{O}(\widetilde{d}\sqrt{\kappa T})$ と $\widetilde{O}(\widetilde{d}\sqrt{T/\kappa})$ と $\widetilde{O}(\widetilde{d}\sqrt{T/\kappa})$ の残差を保証し,既存の結果を改善する。
最後に,我々の理論的知見を検証するために,合成データセットと実データセットの数値結果について報告する。
関連論文リスト
- Combinatorial Logistic Bandits [30.829239785016934]
我々はロジスティック・バンディット(CLogB)と呼ばれる新しいフレームワークを紹介する。
各ラウンドでは、ベースアームのサブセット(スーパーアームと呼ばれる)が選択され、各ベースアームの結果はバイナリとなる。
実世界のデータセットの実験では、ベンチマークアルゴリズムと比較してアルゴリズムの性能が優れていた。
論文 参考訳(メタデータ) (2024-10-22T14:52:46Z) - Matching the Statistical Query Lower Bound for $k$-Sparse Parity Problems with Sign Stochastic Gradient Descent [83.85536329832722]
我々は、2層完全連結ニューラルネットワーク上での符号勾配降下(SGD)による$k$スパースパリティ問題を解く。
このアプローチは、$d$次元ハイパーキューブ上での$k$スパースパリティ問題を効率的に解くことができることを示す。
次に、符号SGDを持つトレーニングニューラルネットワークが、この優れたネットワークを効果的に近似し、小さな統計的誤差で$k$-parity問題を解く方法を示す。
論文 参考訳(メタデータ) (2024-04-18T17:57:53Z) - Provably Efficient Neural Offline Reinforcement Learning via Perturbed
Rewards [33.88533898709351]
VIPeRは、ランダム化された値関数のアイデアと悲観主義の原理を一致させる。
オフラインデータを複数回摂動することで、暗黙的に悲観性を得る。
ニューラルネットワーク関数近似を用いた一般的なマルコフ決定過程(MDP)において、証明可能かつ計算的に効率的である。
論文 参考訳(メタデータ) (2023-02-24T17:52:12Z) - Generalization Ability of Wide Neural Networks on $\mathbb{R}$ [8.508360765158326]
広い2層ReLUニューラルネットワークのmathbbR$上での一般化能力について検討した。
$i)$幅$mrightarrowinfty$のとき、ニューラルネットワークカーネル(NNK)がNTKに均一に収束すると、$ii)$$$$K_1$のRKHSに対する回帰の最小値が$n-2/3$;$iii)$ 広義のニューラルネットワークをトレーニングする際に早期停止戦略を採用する場合、$ivとなる。
論文 参考訳(メタデータ) (2023-02-12T15:07:27Z) - When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - Causal Bandits for Linear Structural Equation Models [58.2875460517691]
本稿では,因果図形モデルにおける最適な介入順序を設計する問題について検討する。
グラフの構造は知られており、ノードは$N$である。
頻繁性(UCBベース)とベイズ的設定に2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-26T16:21:31Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Fundamental tradeoffs between memorization and robustness in random
features and neural tangent regimes [15.76663241036412]
モデルがトレーニングのごく一部を記憶している場合、そのソボレフ・セミノルムは低い有界であることを示す。
実験によって初めて、(iv)ミンノルム補間器の堅牢性における多重発色現象が明らかになった。
論文 参考訳(メタデータ) (2021-06-04T17:52:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。