論文の概要: Adapting Bandit Algorithms for Settings with Sequentially Available Arms
- arxiv url: http://arxiv.org/abs/2109.15228v1
- Date: Thu, 30 Sep 2021 15:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:46:05.617885
- Title: Adapting Bandit Algorithms for Settings with Sequentially Available Arms
- Title(参考訳): 順次利用可能なアーム設定のための帯域幅アルゴリズムの適用
- Authors: Marco Gabrielli, Francesco Trov\`o, Manuela Antonelli
- Abstract要約: 本稿では,MAB (Seq) に対する逐次プル/ノープルというメタアルゴリズムを提案する。
提案されたメタアルゴリズムは、特に第1ラウンドにおいて、腕の推定値に高い不確かさを特徴とするより多くの情報を集める。
Seqメタアルゴリズムは、合成および実世界のデータセットに関する古典的MABポリシーと比較して、広範囲にテストされた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although the classical version of the Multi-Armed Bandits (MAB) framework has
been applied successfully to several practical problems, in many real-world
applications, the possible actions are not presented to the learner
simultaneously, such as in the Internet campaign management and environmental
monitoring settings. Instead, in such applications, a set of options is
presented sequentially to the learner within a time span, and this process is
repeated throughout a time horizon. At each time, the learner is asked whether
to select the proposed option or not. We define this scenario as the Sequential
Pull/No-pull Bandit setting, and we propose a meta-algorithm, namely Sequential
Pull/No-pull for MAB (Seq), to adapt any classical MAB policy to better suit
this setting for both the regret minimization and best-arm identification
problems. By allowing the selection of multiple arms within a round, the
proposed meta-algorithm gathers more information, especially in the first
rounds, characterized by a high uncertainty in the arms estimate value. At the
same time, the adapted algorithms provide the same theoretical guarantees as
the classical policy employed. The Seq meta-algorithm was extensively tested
and compared with classical MAB policies on synthetic and real-world datasets
from advertising and environmental monitoring applications, highlighting its
good empirical performances.
- Abstract(参考訳): マルチアーマッド・バンドイット(MAB)フレームワークの古典的なバージョンは、いくつかの実践的な問題にうまく適用されているが、現実の多くのアプリケーションでは、インターネットのキャンペーン管理や環境監視設定のように、学習者に同時に実行可能なアクションは提示されない。
代わりに、そのようなアプリケーションでは、一連のオプションが時間内に学習者にシーケンシャルに提示され、このプロセスは時間軸を通して繰り返される。
毎回、学習者は提案された選択肢を選択するかどうかを尋ねられる。
我々は,このシナリオを逐次プル・ノープル・バンディット設定として定義し,後悔の最小化問題と最善のアーム識別問題の両方に対して,任意の古典的なmabポリシーを適合させるために,逐次プル・ノープル・フォー・mab (seq) のメタアルゴリズムを提案する。
提案するメタアルゴリズムは、ラウンド内の複数のアームの選択を可能にすることで、特に第1ラウンドにおいて、アーム推定値の不確実性が特徴のより多くの情報を収集する。
同時に、適応アルゴリズムは、採用される古典的なポリシーと同じ理論的保証を提供する。
Seqメタアルゴリズムは、広告や環境モニタリングアプリケーションからの合成および実世界のデータセットに関する古典的なMABポリシーと比較され、その優れた経験的パフォーマンスを強調した。
関連論文リスト
- Contextual Bandits with Arm Request Costs and Delays [19.263086804406786]
本稿では,時間的遅延と関連するコストを伴って,新たなアームセットを要求できるコンテキスト的バンディット問題の拡張を提案する。
この設定では、学習者は、各選択が1つの時間単位を取るように、決定セットから複数のアームを選択することができる。
我々は、武器を効果的に選択し、新しい武器を要求する適切な時間を決定するアルゴリズムを設計し、彼らの後悔を最小限に抑える。
論文 参考訳(メタデータ) (2024-10-17T00:44:50Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Convergence of a L2 regularized Policy Gradient Algorithm for the Multi Armed Bandit [0.0]
一方のマルチアームバンド(MAB)と他方のポリシー勾配アプローチは、強化学習の最もよく使われるフレームワークである。
この研究において、$L2$正規化項が'softmax'パラメトリゼーションと共同で存在する状況に対するそのような手順の収束について検討する。
論文 参考訳(メタデータ) (2024-02-09T13:10:04Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Reinforcement Learning for Finite-Horizon Restless Multi-Armed
Multi-Action Bandits [8.136957953239254]
本稿では、R(MA)2Bと呼ばれる複数の動作を持つ有限ホライゾンレス・マルチアームバンディット問題について検討する。
各アームの状態は、制御されたマルコフ決定プロセス(MDP)に従って進化し、アームを引く報酬は、対応するMDPの現在の状態と、取られたアクションの両方に依存する。
最適政策の発見は典型的には難解であるため,我々はOccupancy-Measured-Reward Index Policyと呼ぶ,計算に訴える指標ポリシーを提案する。
論文 参考訳(メタデータ) (2021-09-20T21:40:12Z) - Max-Utility Based Arm Selection Strategy For Sequential Query
Recommendations [16.986870945319293]
オンライン情報収集や探索分析のようなクローズドループ対話型学習環境におけるクエリレコメンデーション問題について考察する。
この問題は、数え切れないほど多くの腕を持つマルチアーマッド・バンド(MAB)フレームワークを使って、自然にモデル化することができる。
このような選択戦略がしばしば高い累積的後悔をもたらすことを示し、この結果から、武器の最大有効性に基づく選択戦略を提案する。
論文 参考訳(メタデータ) (2021-08-31T13:03:30Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。