論文の概要: Federated Neural Bandit
- arxiv url: http://arxiv.org/abs/2205.14309v1
- Date: Sat, 28 May 2022 02:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 14:14:33.313565
- Title: Federated Neural Bandit
- Title(参考訳): フェデレートニューラルバンド
- Authors: Zhongxiang Dai, Yao Shu, Arun Verma, Flint Xiaofeng Fan, Bryan Kian
Hsiang Low, Patrick Jaillet
- Abstract要約: 本稿では,FN-UCB(Federated Neural-upper confidence bound)アルゴリズムについて述べる。
フェデレートされた設定をよりうまく活用するために、私たちは2つのUCBの重み付けの組み合わせを採用しています。
我々は,FN-UCBの累積後悔と通信ラウンド数の両方について,線形上界を証明し,その競合性能を実証するために実証実験を用いた。
- 参考スコア(独自算出の注目度): 46.64825970508973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works on neural contextual bandit have achieved compelling
performances thanks to their ability to leverage the strong representation
power of neural networks (NNs) for reward prediction. Many applications of
contextual bandit involve multiple agents who collaborate without sharing raw
observations, giving rise to the setting of federated contextual bandit.
Existing works on federated contextual bandit rely on linear or kernelized
bandit, which may fall short when modeling complicated real-world reward
functions. In this regard, we introduce the federated neural-upper confidence
bound (FN-UCB) algorithm. To better exploit the federated setting, we adopt a
weighted combination of two UCBs: $\text{UCB}^{a}$ allows every agent to
additionally use the observations from the other agents to accelerate
exploration (without sharing raw observations); $\text{UCB}^{b}$ uses an NN
with aggregated parameters for reward prediction in a similar way as federated
averaging for supervised learning. Notably, the weight between the two UCBs
required by our theoretical analysis is amenable to an interesting
interpretation, which emphasizes $\text{UCB}^{a}$ initially for accelerated
exploration and relies more on $\text{UCB}^{b}$ later after enough observations
have been collected to train the NNs for accurate reward prediction (i.e.,
reliable exploitation). We prove sub-linear upper bounds on both the cumulative
regret and the number of communication rounds of FN-UCB, and use empirical
experiments to demonstrate its competitive performances.
- Abstract(参考訳): ニューラルネットワーク(NN)の強力な表現力を活用して報酬を予測する能力によって、最近のニューラルネットワークのコンテキスト的帯域幅の研究は、魅力的なパフォーマンスを実現している。
文脈的バンドイットの多くの応用は、生の観察を共有せずに協力する複数のエージェントを含み、連合的文脈的バンドイットの設定を引き起こす。
フェデレーション・コンテクスト・バンディットの既存の作品は線形あるいはカーネル化されたバンディットに依存しており、複雑な実世界の報酬関数をモデル化する際には不足する可能性がある。
本稿では,federated neural-upper confidence bound (fn-ucb)アルゴリズムを提案する。
フェデレートされた設定をよりうまく活用するために、我々は2つの UCB の重み付けの組み合わせを採用する: $\text{UCB}^{a}$ は、他のエージェントからの観察を加速するために、他のエージェントからの観察を(生の観察を共有することなく)追加的に使用できるようにする。
特に、理論解析によって要求される2つのUCB間の重みは、最初に加速探索のために$\text{UCB}^{a}$を強調し、正確な報酬予測のためにNNを訓練するのに十分な観測が得られた後で$\text{UCB}^{b}$に依存するという興味深い解釈に導かれる。
我々は,FN-UCBの累積後悔と通信ラウンド数の両方について,線形上界を証明し,その競合性能を示す実証実験を行った。
関連論文リスト
- Neural Combinatorial Clustered Bandits for Recommendation Systems [12.800116749927266]
深層ニューラルネットワークを用いて未知の報酬関数を推定する。
従来のニューラルネットワークとは違って、NeUClustはニューラルネットワークを使用してスーパーアームの報酬を推定し、スーパーアームを選択する。
Neuclustは、他の文脈行列やニューラルバンディットアルゴリズムよりも後悔と報奨を達成している。
論文 参考訳(メタデータ) (2024-10-18T16:37:28Z) - Neural Exploitation and Exploration of Contextual Bandits [51.25537742455235]
本研究では,ニューラルネットワークを用いたコンテキスト型マルチアームバンディットの活用と探索について検討する。
EE-Netは、ニューラルベースによる新たなエクスプロイトと探索戦略である。
EE-Netは、実世界のデータセット上での線形およびニューラルネットワークの帯域ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-05T18:34:49Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - Deep Upper Confidence Bound Algorithm for Contextual Bandit Ranking of
Information Selection [0.0]
CMAB(Contextual Multi-armed bandits)は、ユーザの関心に応じて情報のフィルタリングと優先順位付けを学習するために広く使用されている。
本研究は,トップKアームを反復的に選択して報酬を最大化するCMABフレームワークに基づくトップKランキングの分析である。
本稿では,Deep Up Confidence Bound (UCB)アルゴリズムという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-08T13:32:14Z) - EE-Net: Exploitation-Exploration Neural Networks in Contextual Bandits [52.98326168071513]
EE-Netは、新しい探索戦略を持つニューラルネットワークベースのバンドイットアプローチである。
EE-Net が $mathcalO(sqrtTlog T)$ regret を達成することを示す。
論文 参考訳(メタデータ) (2021-10-07T04:12:36Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - The Unreasonable Effectiveness of Greedy Algorithms in Multi-Armed Bandit with Many Arms [10.662105162882526]
本研究は,Emphmany-armed regimeにおける$k$-armed bandit問題について考察する。
以上の結果から,多腕の環境下での強欲なアルゴリズムには,新たなエフェフリー探索法が有用であることが示唆された。
論文 参考訳(メタデータ) (2020-02-24T08:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。