論文の概要: Master-slave Deep Architecture for Top-K Multi-armed Bandits with
Non-linear Bandit Feedback and Diversity Constraints
- arxiv url: http://arxiv.org/abs/2308.12680v1
- Date: Thu, 24 Aug 2023 09:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 14:25:09.211068
- Title: Master-slave Deep Architecture for Top-K Multi-armed Bandits with
Non-linear Bandit Feedback and Diversity Constraints
- Title(参考訳): 非線形帯域フィードバックと多様性制約を持つトップKマルチアームバンドのマスタースレーブ深層構造
- Authors: Hanchi Huang, Li Shen, Deheng Ye, Wei Liu
- Abstract要約: 本稿では,トップ$Kのマルチアームバンディット問題を解決するために,新しいマスタースレーブアーキテクチャを提案する。
我々の知る限りでは、バンドイットフィードバックの下で多様性の制約を考慮に入れた最初のバンドイットである。
- 参考スコア(独自算出の注目度): 21.109631268204215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel master-slave architecture to solve the top-$K$
combinatorial multi-armed bandits problem with non-linear bandit feedback and
diversity constraints, which, to the best of our knowledge, is the first
combinatorial bandits setting considering diversity constraints under bandit
feedback. Specifically, to efficiently explore the combinatorial and
constrained action space, we introduce six slave models with distinguished
merits to generate diversified samples well balancing rewards and constraints
as well as efficiency. Moreover, we propose teacher learning based optimization
and the policy co-training technique to boost the performance of the multiple
slave models. The master model then collects the elite samples provided by the
slave models and selects the best sample estimated by a neural contextual
UCB-based network to make a decision with a trade-off between exploration and
exploitation. Thanks to the elaborate design of slave models, the co-training
mechanism among slave models, and the novel interactions between the master and
slave models, our approach significantly surpasses existing state-of-the-art
algorithms in both synthetic and real datasets for recommendation tasks. The
code is available at:
\url{https://github.com/huanghanchi/Master-slave-Algorithm-for-Top-K-Bandits}.
- Abstract(参考訳): そこで本稿では,非線形帯域幅フィードバックと多様性制約を併用して,最上位のK$多重武装帯域幅問題を解決するための新しいマスタースレーブアーキテクチャを提案する。
具体的には,組み合わせおよび制約された行動空間を効率的に探索するために,報奨と制約のバランスと効率のバランスよく多角化サンプルを生成するために,優れた特性を持つ6つのスレーブモデルを導入する。
さらに,マルチスレーブモデルの性能向上のために,教師の学習に基づく最適化と政策協調学習手法を提案する。
マスターモデルは、スレーブモデルが提供するエリートサンプルを収集し、ニューラルネットワークによるUTBベースのネットワークによって推定される最良のサンプルを選択し、探索と搾取の間のトレードオフで決定する。
スレーブモデルの精巧な設計、スレーブモデル間の協調学習機構、マスターモデルとスレーブモデルの間の新たな相互作用のおかげで、提案手法はレコメンデーションタスクのための合成データセットと実際のデータセットの両方において既存の最先端アルゴリズムを大幅に上回っている。
コードは \url{https://github.com/huanghanchi/master-slave-algorithm-for-top-k-bandits} で入手できる。
関連論文リスト
- Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Jump Starting Bandits with LLM-Generated Prior Knowledge [5.344012058238259]
大規模言語モデルは、オンライン学習の後悔を減らすために、文脈的マルチアームバンディットを飛躍的に開始できることを示す。
そこで本稿では,LLMに対して,バンドイットに近似した人選好の事前学習データセットを作成するように促すことにより,コンテキスト的帯域幅を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-27T16:52:19Z) - ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。
固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。
提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文 参考訳(メタデータ) (2024-05-15T13:22:39Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Multi-Source Test-Time Adaptation as Dueling Bandits for Extractive
Question Answering [25.44581667865143]
ユーザフィードバックからのマルチソーステストタイムモデル適応について検討した。
マルチアーム・バンディット学習とマルチアーム・デュエル・バンディットの2つの枠組みについて論じる。
マルチアームバンディット学習と比較して、このデュエルフレームワークはKモデル間のペアワイズ協調を可能にし、この研究で提案されたCo-UCBという新しい手法によって解決される。
論文 参考訳(メタデータ) (2023-06-11T21:18:50Z) - Stochastic Rising Bandits [40.32303434592863]
本研究は、腕が単調に非減少している、安静時および安静時バンディットの特定の症例について検討する。
この特性により、ペイオフの規則性を利用して、厳密な後悔の限界を提供する、特別に構築されたアルゴリズムを設計することができる。
我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文 参考訳(メタデータ) (2022-12-07T17:30:45Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Effects of Model Misspecification on Bayesian Bandits: Case Studies in
UX Optimization [8.704145252476705]
我々は、新しい定式化を、保存されていない共同創設者とオプションの停止を伴う、安静な睡眠バンディットとして提示する。
ケーススタディは、一般的な不特定が最適以下の報酬につながることを示している。
また、レスレスバンディットにおける結合を利用した最初のモデルを示し、有限の後悔と高速で一貫した停止が可能であることを示した。
論文 参考訳(メタデータ) (2020-10-07T14:34:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。