Fugu-MT 論文翻訳(概要): Streaming Algorithms for Stochastic Multi-armed Bandits

論文の概要: Streaming Algorithms for Stochastic Multi-armed Bandits

arxiv url: http://arxiv.org/abs/2012.05142v1
Date: Wed, 9 Dec 2020 16:28:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-16 02:06:59.335223
Title: Streaming Algorithms for Stochastic Multi-armed Bandits
Title（参考訳）: 確率的マルチアーム帯域のストリーミングアルゴリズム
Authors: Arnab Maiti, Vishakha Patil, Arindam Khan
Abstract要約: 有界アームメモリにおけるマルチアームバンド問題について検討する。後悔最小化のために,n が腕の数である (n-1) の腕記憶サイズへの期待において,Omega(T2/3) 累積後悔を示す。ベストアーム識別には,2つのアルゴリズムについて検討する。まず,O(r) アームメモリ r ラウンド適応ストリーミングアルゴリズムを用いて,エプシロンベストアームの探索を行う。
参考スコア（独自算出の注目度）: 1.4932318540666543
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the Stochastic Multi-armed Bandit problem under bounded arm-memory. In this setting, the arms arrive in a stream, and the number of arms that can be stored in the memory at any time, is bounded. The decision-maker can only pull arms that are present in the memory. We address the problem from the perspective of two standard objectives: 1) regret minimization, and 2) best-arm identification. For regret minimization, we settle an important open question by showing an almost tight hardness. We show {\Omega}(T^{2/3}) cumulative regret in expectation for arm-memory size of (n-1), where n is the number of arms. For best-arm identification, we study two algorithms. First, we present an O(r) arm-memory r-round adaptive streaming algorithm to find an {\epsilon}-best arm. In r-round adaptive streaming algorithm for best-arm identification, the arm pulls in each round are decided based on the observed outcomes in the earlier rounds. The best-arm is the output at the end of r rounds. The upper bound on the sample complexity of our algorithm matches with the lower bound for any r-round adaptive streaming algorithm. Secondly, we present a heuristic to find the {\epsilon}-best arm with optimal sample complexity, by storing only one extra arm in the memory.
Abstract（参考訳）: 有界アームメモリにおける確率的マルチアームバンド問題について検討する。この設定では、アームはストリームに到達し、いつでもメモリに格納できるアームの数は境界となる。意思決定者は記憶にある腕だけを引っ張ることができます。 1) 後悔の最小化, 2) ベストアームの識別という2つの標準目標からこの問題に対処した。後悔の最小化のために、我々はほとんど固い硬さを示すことで重要なオープンな疑問を解決した。我々は、(n-1) のアームメモリサイズを期待して (Omega)(T^{2/3}) 累積後悔を示し、n はアームの数である。ベストアーム識別には2つのアルゴリズムを検討する。まず、o(r)アームメモリのrラウンド適応型ストリーミングアルゴリズムを示し、"epsilon}-best armを求める。最良アーム識別のためのrラウンド適応ストリーミングアルゴリズムでは、各ラウンドのアームプルは、前ラウンドの観測結果に基づいて決定される。最善の武器はrラウンドの終了時の出力である。我々のアルゴリズムのサンプル複雑性の上限は、任意のrラウンド適応ストリーミングアルゴリズムの下位境界と一致する。第2に,メモリに余分なアームを1つだけ格納することで,最適なサンプル複雑性を持つ「エプシロン」-ベストアームを見つけるヒューリスティックを提案する。

関連論文リスト

An Algorithm for Fixed Budget Best Arm Identification with Combinatorial Exploration [3.9901365062418312]
我々は、K$$armed banditフレームワークにおける最適な腕識別問題を考察する。エージェントは1つのアームではなく、各タイムスロットでアームのサブセットをプレイすることができる。我々は、$log K$グループを構築し、最適なアームの存在を検出するための確率比テストを実行するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-03T15:10:08Z)
Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文参考訳（メタデータ） (2025-01-23T12:28:09Z)
Best-Arm Identification in Unimodal Bandits [24.001611176749158]
本研究では, 固定信頼度ベストアーム識別問題について検討する。我々は任意の境界の停止時間で2つ下げる。腕の数に対する線形依存は、信頼性に依存しないコストでは避けられないことを示す。
論文参考訳（メタデータ） (2024-11-04T09:05:11Z)
A General Framework for Clustering and Distribution Matching with Bandit Feedback [81.50716021326194]
我々は,帯域幅フィードバックを用いたクラスタリングと分散マッチング問題のための一般的なフレームワークを開発する。誤り確率が$delta$を超えない任意のオンラインアルゴリズムに対して、平均アームプル数に基づいて漸近的でない下界を導出する。
論文参考訳（メタデータ） (2024-09-08T12:19:12Z)
Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。 CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文参考訳（メタデータ） (2023-10-24T09:47:32Z)
Federated Best Arm Identification with Heterogeneous Clients [62.36929749450298]
中央サーバと複数のクライアントを備えた多腕バンディット・セッティングにおける腕の識別について検討した。予測停止時間上の上限が乗算定数までの下限と一致するアルゴリズム(ほぼ最適アルゴリズムの場合)について示す。本稿では,指数時間瞬間に通信する新しいアルゴリズムを提案し,ほぼ最適であることを実証する。
論文参考訳（メタデータ） (2022-10-14T13:09:11Z)
Continuous Time Bandits With Sampling Costs [17.412117389855222]
連続時間マルチアームバンディット問題 (CTMAB) を考えると, 学習者は任意の間隔で何回でもアームをサンプリングし, サンプルからランダムな報酬を得ることができる。サンプリング周波数の関数として、大きな報酬を得ることとサンプリングコストをもたらすことにはトレードオフがある。目的は後悔を最小限に抑える学習アルゴリズムを設計することであり、これはオラクルのポリシーと学習アルゴリズムの報酬の差として定義される。
論文参考訳（メタデータ） (2021-07-12T10:00:35Z)
Top-$k$ eXtreme Contextual Bandits with Arm Hierarchy [71.17938026619068]
我々は、腕の総数が膨大であることができるトップ$ k$極端な文脈的包帯問題を研究します。まず,Inverse Gap Weighting戦略を用いて,非極端に実現可能な設定のアルゴリズムを提案する。我々のアルゴリズムは、$O(ksqrt(A-k+1)T log (|mathcalF|T))$である。
論文参考訳（メタデータ） (2021-02-15T19:10:52Z)
Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文参考訳（メタデータ） (2021-01-21T10:35:09Z)
Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文参考訳（メタデータ） (2020-06-29T14:25:51Z)
On Regret with Multiple Best Arms [12.315392649501101]
バンディット設定における複数のベスト/ニア最適アームの存在に関する後悔問題について検討する。我々の目標は、問題の未知の硬さに自動的に適応できるアルゴリズムを設計することです。
論文参考訳（メタデータ） (2020-06-26T04:01:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。