論文の概要: Master-slave Deep Architecture for Top-K Multi-armed Bandits with
Non-linear Bandit Feedback and Diversity Constraints
- arxiv url: http://arxiv.org/abs/2308.12680v1
- Date: Thu, 24 Aug 2023 09:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 14:25:09.211068
- Title: Master-slave Deep Architecture for Top-K Multi-armed Bandits with
Non-linear Bandit Feedback and Diversity Constraints
- Title(参考訳): 非線形帯域フィードバックと多様性制約を持つトップKマルチアームバンドのマスタースレーブ深層構造
- Authors: Hanchi Huang, Li Shen, Deheng Ye, Wei Liu
- Abstract要約: 本稿では,トップ$Kのマルチアームバンディット問題を解決するために,新しいマスタースレーブアーキテクチャを提案する。
我々の知る限りでは、バンドイットフィードバックの下で多様性の制約を考慮に入れた最初のバンドイットである。
- 参考スコア(独自算出の注目度): 21.109631268204215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel master-slave architecture to solve the top-$K$
combinatorial multi-armed bandits problem with non-linear bandit feedback and
diversity constraints, which, to the best of our knowledge, is the first
combinatorial bandits setting considering diversity constraints under bandit
feedback. Specifically, to efficiently explore the combinatorial and
constrained action space, we introduce six slave models with distinguished
merits to generate diversified samples well balancing rewards and constraints
as well as efficiency. Moreover, we propose teacher learning based optimization
and the policy co-training technique to boost the performance of the multiple
slave models. The master model then collects the elite samples provided by the
slave models and selects the best sample estimated by a neural contextual
UCB-based network to make a decision with a trade-off between exploration and
exploitation. Thanks to the elaborate design of slave models, the co-training
mechanism among slave models, and the novel interactions between the master and
slave models, our approach significantly surpasses existing state-of-the-art
algorithms in both synthetic and real datasets for recommendation tasks. The
code is available at:
\url{https://github.com/huanghanchi/Master-slave-Algorithm-for-Top-K-Bandits}.
- Abstract(参考訳): そこで本稿では,非線形帯域幅フィードバックと多様性制約を併用して,最上位のK$多重武装帯域幅問題を解決するための新しいマスタースレーブアーキテクチャを提案する。
具体的には,組み合わせおよび制約された行動空間を効率的に探索するために,報奨と制約のバランスと効率のバランスよく多角化サンプルを生成するために,優れた特性を持つ6つのスレーブモデルを導入する。
さらに,マルチスレーブモデルの性能向上のために,教師の学習に基づく最適化と政策協調学習手法を提案する。
マスターモデルは、スレーブモデルが提供するエリートサンプルを収集し、ニューラルネットワークによるUTBベースのネットワークによって推定される最良のサンプルを選択し、探索と搾取の間のトレードオフで決定する。
スレーブモデルの精巧な設計、スレーブモデル間の協調学習機構、マスターモデルとスレーブモデルの間の新たな相互作用のおかげで、提案手法はレコメンデーションタスクのための合成データセットと実際のデータセットの両方において既存の最先端アルゴリズムを大幅に上回っている。
コードは \url{https://github.com/huanghanchi/master-slave-algorithm-for-top-k-bandits} で入手できる。
関連論文リスト
- Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。
本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-04T07:55:41Z) - Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。
Off-CMABは悲観的な報酬推定と解法を組み合わせる。
合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文 参考訳(メタデータ) (2025-01-31T16:56:18Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Combinatorial Rising Bandit [29.357803270943254]
我々は,政策後悔を最小限に抑えるために,帯域の増大という問題を提起し,コンビネーション・ライジング・アッパー・信頼境界 (CRUCB) と呼ばれる証明可能なアルゴリズムを提案する。
CRUCBは、後悔の上限が後悔の下限に近いことを示すことにより、確実に効率的である。
さらに,CRUCBの有効性と優位性を,合成環境だけでなく,深層強化学習の現実的応用においても実証的に実証した。
論文 参考訳(メタデータ) (2024-12-01T12:52:18Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Multi-Source Test-Time Adaptation as Dueling Bandits for Extractive
Question Answering [25.44581667865143]
ユーザフィードバックからのマルチソーステストタイムモデル適応について検討した。
マルチアーム・バンディット学習とマルチアーム・デュエル・バンディットの2つの枠組みについて論じる。
マルチアームバンディット学習と比較して、このデュエルフレームワークはKモデル間のペアワイズ協調を可能にし、この研究で提案されたCo-UCBという新しい手法によって解決される。
論文 参考訳(メタデータ) (2023-06-11T21:18:50Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Effects of Model Misspecification on Bayesian Bandits: Case Studies in
UX Optimization [8.704145252476705]
我々は、新しい定式化を、保存されていない共同創設者とオプションの停止を伴う、安静な睡眠バンディットとして提示する。
ケーススタディは、一般的な不特定が最適以下の報酬につながることを示している。
また、レスレスバンディットにおける結合を利用した最初のモデルを示し、有限の後悔と高速で一貫した停止が可能であることを示した。
論文 参考訳(メタデータ) (2020-10-07T14:34:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。