Fugu-MT 論文翻訳(概要): Master-slave Deep Architecture for Top-K Multi-armed Bandits with Non-linear Bandit Feedback and Diversity Constraints

論文の概要: Master-slave Deep Architecture for Top-K Multi-armed Bandits with Non-linear Bandit Feedback and Diversity Constraints

arxiv url: http://arxiv.org/abs/2308.12680v1
Date: Thu, 24 Aug 2023 09:39:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-25 14:25:09.211068
Title: Master-slave Deep Architecture for Top-K Multi-armed Bandits with Non-linear Bandit Feedback and Diversity Constraints
Title（参考訳）: 非線形帯域フィードバックと多様性制約を持つトップKマルチアームバンドのマスタースレーブ深層構造
Authors: Hanchi Huang, Li Shen, Deheng Ye, Wei Liu
Abstract要約: 本稿では,トップ$Kのマルチアームバンディット問題を解決するために,新しいマスタースレーブアーキテクチャを提案する。我々の知る限りでは、バンドイットフィードバックの下で多様性の制約を考慮に入れた最初のバンドイットである。
参考スコア（独自算出の注目度）: 21.109631268204215
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a novel master-slave architecture to solve the top-$K$ combinatorial multi-armed bandits problem with non-linear bandit feedback and diversity constraints, which, to the best of our knowledge, is the first combinatorial bandits setting considering diversity constraints under bandit feedback. Specifically, to efficiently explore the combinatorial and constrained action space, we introduce six slave models with distinguished merits to generate diversified samples well balancing rewards and constraints as well as efficiency. Moreover, we propose teacher learning based optimization and the policy co-training technique to boost the performance of the multiple slave models. The master model then collects the elite samples provided by the slave models and selects the best sample estimated by a neural contextual UCB-based network to make a decision with a trade-off between exploration and exploitation. Thanks to the elaborate design of slave models, the co-training mechanism among slave models, and the novel interactions between the master and slave models, our approach significantly surpasses existing state-of-the-art algorithms in both synthetic and real datasets for recommendation tasks. The code is available at: \url{https://github.com/huanghanchi/Master-slave-Algorithm-for-Top-K-Bandits}.
Abstract（参考訳）: そこで本稿では,非線形帯域幅フィードバックと多様性制約を併用して,最上位のK$多重武装帯域幅問題を解決するための新しいマスタースレーブアーキテクチャを提案する。具体的には,組み合わせおよび制約された行動空間を効率的に探索するために,報奨と制約のバランスと効率のバランスよく多角化サンプルを生成するために,優れた特性を持つ6つのスレーブモデルを導入する。さらに,マルチスレーブモデルの性能向上のために,教師の学習に基づく最適化と政策協調学習手法を提案する。マスターモデルは、スレーブモデルが提供するエリートサンプルを収集し、ニューラルネットワークによるUTBベースのネットワークによって推定される最良のサンプルを選択し、探索と搾取の間のトレードオフで決定する。スレーブモデルの精巧な設計、スレーブモデル間の協調学習機構、マスターモデルとスレーブモデルの間の新たな相互作用のおかげで、提案手法はレコメンデーションタスクのための合成データセットと実際のデータセットの両方において既存の最先端アルゴリズムを大幅に上回っている。コードは \url{https://github.com/huanghanchi/master-slave-algorithm-for-top-k-bandits} で入手できる。

関連論文リスト

Semi-Parametric Batched Global Multi-Armed Bandits with Covariates [0.48342038441006807]
マルチアームバンディット(MAB)フレームワークは、シーケンシャルな意思決定に広く使われているアプローチである。本稿では,コパラメトリックと腕間の共有パラメータを持つバッチバンドの半パラメトリックフレームワークを提案する。 Batched Single-Index Dynamic binning and Successive arm elimination (BIDS) というアルゴリズムでは、バッチ化された逐次アームの除去戦略を採用している。
論文参考訳（メタデータ） (2025-03-01T17:23:55Z)
Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-04T07:55:41Z)
Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。 Off-CMABは悲観的な報酬推定と解法を組み合わせる。合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文参考訳（メタデータ） (2025-01-31T16:56:18Z)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳（メタデータ） (2025-01-02T12:45:21Z)
Combinatorial Rising Bandit [29.357803270943254]
我々は,政策後悔を最小限に抑えるために,帯域の増大という問題を提起し,コンビネーション・ライジング・アッパー・信頼境界 (CRUCB) と呼ばれる証明可能なアルゴリズムを提案する。 CRUCBは、後悔の上限が後悔の下限に近いことを示すことにより、確実に効率的である。さらに,CRUCBの有効性と優位性を,合成環境だけでなく,深層強化学習の現実的応用においても実証的に実証した。
論文参考訳（メタデータ） (2024-12-01T12:52:18Z)
Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。適切な前提の下では、単純な後悔に縛られる。
論文参考訳（メタデータ） (2024-10-22T14:36:44Z)
Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文参考訳（メタデータ） (2024-07-24T09:23:22Z)
Jump Starting Bandits with LLM-Generated Prior Knowledge [5.344012058238259]
大規模言語モデルは、オンライン学習の後悔を減らすために、文脈的マルチアームバンディットを飛躍的に開始できることを示す。そこで本稿では,LLMに対して,バンドイットに近似した人選好の事前学習データセットを作成するように促すことにより,コンテキスト的帯域幅を求めるアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-27T16:52:19Z)
ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文参考訳（メタデータ） (2024-05-15T13:22:39Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文参考訳（メタデータ） (2024-01-08T17:55:02Z)
Multi-Source Test-Time Adaptation as Dueling Bandits for Extractive Question Answering [25.44581667865143]
ユーザフィードバックからのマルチソーステストタイムモデル適応について検討した。マルチアーム・バンディット学習とマルチアーム・デュエル・バンディットの2つの枠組みについて論じる。マルチアームバンディット学習と比較して、このデュエルフレームワークはKモデル間のペアワイズ協調を可能にし、この研究で提案されたCo-UCBという新しい手法によって解決される。
論文参考訳（メタデータ） (2023-06-11T21:18:50Z)
Stochastic Rising Bandits [40.32303434592863]
本研究は、腕が単調に非減少している、安静時および安静時バンディットの特定の症例について検討する。この特性により、ペイオフの規則性を利用して、厳密な後悔の限界を提供する、特別に構築されたアルゴリズムを設計することができる。我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文参考訳（メタデータ） (2022-12-07T17:30:45Z)
Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文参考訳（メタデータ） (2021-05-25T10:08:41Z)
Effects of Model Misspecification on Bayesian Bandits: Case Studies in UX Optimization [8.704145252476705]
我々は、新しい定式化を、保存されていない共同創設者とオプションの停止を伴う、安静な睡眠バンディットとして提示する。ケーススタディは、一般的な不特定が最適以下の報酬につながることを示している。また、レスレスバンディットにおける結合を利用した最初のモデルを示し、有限の後悔と高速で一貫した停止が可能であることを示した。
論文参考訳（メタデータ） (2020-10-07T14:34:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。