Fugu-MT 論文翻訳(概要): Uncertainty of Joint Neural Contextual Bandit

論文の概要: Uncertainty of Joint Neural Contextual Bandit

arxiv url: http://arxiv.org/abs/2406.02515v1
Date: Tue, 4 Jun 2024 17:38:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 15:00:23.988147
Title: Uncertainty of Joint Neural Contextual Bandit
Title（参考訳）: 関節神経コンテクストバンドの不確かさ
Authors: Hongbo Guo, Zheqing Zhu,
Abstract要約: 本稿では,1つのモデルにおける全ての推奨項目を補完する,結合型ニューラルネットワークのコンテキスト的包帯解について述べる。パラメータ $alpha$ のチューニングは通常、その性質のため、実際は複雑である。我々は, 統合神経コンテキストバンドモデルの不確実性$sigma$に関する理論的解析と実験的知見の両方を提供する。
参考スコア（独自算出の注目度）: 0.41436032949434404
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contextual bandit learning is increasingly favored in modern large-scale recommendation systems. To better utlize the contextual information and available user or item features, the integration of neural networks have been introduced to enhance contextual bandit learning and has triggered significant interest from both academia and industry. However, a major challenge arises when implementing a disjoint neural contextual bandit solution in large-scale recommendation systems, where each item or user may correspond to a separate bandit arm. The huge number of items to recommend poses a significant hurdle for real world production deployment. This paper focuses on a joint neural contextual bandit solution which serves all recommending items in one single model. The output consists of a predicted reward $\mu$, an uncertainty $\sigma$ and a hyper-parameter $\alpha$ which balances exploitation and exploration, e.g., $\mu + \alpha \sigma$. The tuning of the parameter $\alpha$ is typically heuristic and complex in practice due to its stochastic nature. To address this challenge, we provide both theoretical analysis and experimental findings regarding the uncertainty $\sigma$ of the joint neural contextual bandit model. Our analysis reveals that $\alpha$ demonstrates an approximate square root relationship with the size of the last hidden layer $F$ and inverse square root relationship with the amount of training data $N$, i.e., $\sigma \propto \sqrt{\frac{F}{N}}$. The experiments, conducted with real industrial data, align with the theoretical analysis, help understanding model behaviors and assist the hyper-parameter tuning during both offline training and online deployment.
Abstract（参考訳）: 文脈的バンディット学習は、現代の大規模レコメンデーションシステムでますます好まれている。コンテキスト情報と利用可能なユーザやアイテムの特徴をより効果的に活用するために、ニューラルネットワークの統合がコンテキスト的バンディット学習を強化するために導入され、学術と産業の両方から大きな関心を集めている。しかし、大規模レコメンデーションシステムでは、各アイテムやユーザが別々のバンディットアームに対応できるような、解離した神経コンテキストのバンディットソリューションを実装する際に大きな課題が生じる。推奨すべき項目の数が多ければ多いほど,現実の運用デプロイメントには大きなハードルが伴います。本稿では,1つのモデルにおける全ての推奨項目を補完する,結合型ニューラルネットワークのコンテキスト的包帯解について述べる。出力は予測された報酬$\mu$、不確実な$\sigma$、そしてエクスプロイトと探索のバランスをとるハイパーパラメータ$\alpha$、eg , $\mu + \alpha \sigma$からなる。パラメータ $\alpha$ のチューニングは通常、その確率的性質のため、ヒューリスティックで実際は複雑である。この課題に対処するために、我々は、統合神経コンテキストバンドモデルの不確実性$\sigma$に関する理論的解析と実験結果の両方を提供する。我々の分析によれば、$\alpha$は最後の隠れた層である$F$と逆2乗根のサイズと、トレーニングデータの量である$N$、すなわち$\sigma \propto \sqrt{\frac{F}{N}}$との近似2乗根関係を示す。実際の産業データを用いて実施された実験は、理論解析と一致し、モデル行動の理解を助け、オフライントレーニングとオンラインデプロイメントの両方におけるハイパーパラメータチューニングを支援する。

関連論文リスト

Neural Variance-aware Dueling Bandits with Deep Representation and Shallow Exploration [6.287267171078442]
ニューラルネットワークを利用して非線形ユーティリティ関数を近似する分散認識アルゴリズムを提案する。十分広いニューラルネットワークに対して,我々のアルゴリズムが次数$bigollt(d sqrtsum_t=1T sigma_t2 + sqrtdTrt)のサブ線形累積平均後悔を達成できることを示す理論的保証を確立する。
論文参考訳（メタデータ） (2025-06-02T01:58:48Z)
High-dimensional Nonparametric Contextual Bandit Problem [12.828728138651266]
カーネル化された文脈帯域幅は、線形文脈帯域幅問題を一般化する。サンプル数まで次元が増大しても,非回帰学習は達成可能であることを示す。 Delta$の観点で、寛大な後悔の率を導き出す。
論文参考訳（メタデータ） (2025-05-20T09:10:39Z)
Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文参考訳（メタデータ） (2023-10-02T08:15:52Z)
Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文参考訳（メタデータ） (2023-05-27T20:08:35Z)
Towards understanding neural collapse in supervised contrastive learning with the information bottleneck method [26.874007846077884]
ニューラル崩壊(Neural collapse)とは、パフォーマンスプレートを超えてトレーニングされたディープニューラルネットワークの最終層におけるアクティベーションの幾何学である。分類問題の最適IB解に近づくと、神経崩壊は特に良い一般化をもたらすことを実証する。
論文参考訳（メタデータ） (2023-05-19T18:41:17Z)
Chaos Theory and Adversarial Robustness [0.0]
本稿では、カオス理論の考え方を用いて、ニューラルネットワークが敵対的攻撃に対してどのような影響を受けやすいか、あるいは堅牢であるかを説明し、分析し、定量化する。我々は、与えられた入力に対する摂動によってモデルの出力がどれほど大きく変化するかをキャプチャする、$hat Psi(h,theta)$によって与えられる新しい計量である「感受性比」を示す。
論文参考訳（メタデータ） (2022-10-20T03:39:44Z)
Learning Contextual Bandits Through Perturbed Rewards [107.6210145983805]
標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
論文参考訳（メタデータ） (2022-01-24T19:10:22Z)
Robustness Certificates for Implicit Neural Networks: A Mixed Monotone Contractive Approach [60.67748036747221]
暗黙のニューラルネットワークは、競合性能とメモリ消費の削減を提供する。入力逆流の摂動に関して、それらは不安定なままである。本稿では,暗黙的ニューラルネットワークのロバスト性検証のための理論的および計算的枠組みを提案する。
論文参考訳（メタデータ） (2021-12-10T03:08:55Z)
Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文参考訳（メタデータ） (2021-10-21T15:25:15Z)
Neural Contextual Bandits without Regret [47.73483756447701]
ニューラルネットワークを用いて未知の報酬関数を近似する文脈的帯域幅のアルゴリズムを提案する。我々のアプローチは、$tildemathcalO(T-1/2d)$ rateで最適ポリシーに収束し、$d$は文脈の次元であることを示す。
論文参考訳（メタデータ） (2021-07-07T11:11:34Z)
Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T19:08:53Z)
Nearly Dimension-Independent Sparse Linear Bandit over Small Action Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文参考訳（メタデータ） (2020-09-04T04:10:39Z)
Towards Deep Learning Models Resistant to Large Perturbations [0.0]
敵対的堅牢性は、機械学習アルゴリズムの必須特性であることが証明されている。とよばれるアルゴリズムは、大きくても合理的で摂動のマグニチュードが与えられたディープニューラルネットワークのトレーニングに失敗することを示した。
論文参考訳（メタデータ） (2020-03-30T12:03:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。