Fugu-MT 論文翻訳(概要): A Sharp Memory-Regret Trade-Off for Multi-Pass Streaming Bandits

論文の概要: A Sharp Memory-Regret Trade-Off for Multi-Pass Streaming Bandits

arxiv url: http://arxiv.org/abs/2205.00984v1
Date: Mon, 2 May 2022 15:30:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-03 13:59:47.863006
Title: A Sharp Memory-Regret Trade-Off for Multi-Pass Streaming Bandits
Title（参考訳）: マルチパスストリーミング帯域のためのシャープメモリ-レグレットトレードオフ
Authors: Arpit Agarwal, Sanjeev Khanna, Prathamesh Patil
Abstract要約: 本稿では,アームをストリームに表示するストリーミング環境について考察し,アルゴリズムは限られたメモリを用いてこれらのアームを処理する。 O(1)$メモリは$widetildeThetaBig(Tfrac12 + frac12B+2-2Big)を達成するのに十分である。我々の主な技術的貢献は、情報理論の手法とラウンド・エミネーションのアイデアを併用することであり、*残留問題*がその後のパスよりも挑戦的であることを示しています。
参考スコア（独自算出の注目度）: 13.146885920912025
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The stochastic $K$-armed bandit problem has been studied extensively due to its applications in various domains ranging from online advertising to clinical trials. In practice however, the number of arms can be very large resulting in large memory requirements for simultaneously processing them. In this paper we consider a streaming setting where the arms are presented in a stream and the algorithm uses limited memory to process these arms. Here, the goal is not only to minimize regret, but also to do so in minimal memory. Previous algorithms for this problem operate in one of the two settings: they either use $\Omega(\log \log T)$ passes over the stream (Rathod, 2021; Chaudhuri and Kalyanakrishnan, 2020; Liau et al., 2018), or just a single pass (Maiti et al., 2021). In this paper we study the trade-off between memory and regret when $B$ passes over the stream are allowed, for any $B \geq 1$, and establish tight regret upper and lower bounds for any $B$-pass algorithm. Our results uncover a surprising *sharp transition phenomenon*: $O(1)$ memory is sufficient to achieve $\widetilde\Theta\Big(T^{\frac{1}{2} + \frac{1}{2^{B+2}-2}}\Big)$ regret in $B$ passes, and increasing the memory to any quantity that is $o(K)$ has almost no impact on further reducing this regret, unless we use $\Omega(K)$ memory. Our main technical contribution is our lower bound which requires the use of information-theoretic techniques as well as ideas from round elimination to show that the *residual problem* remains challenging over subsequent passes.
Abstract（参考訳）: 確率的k$武装のバンディット問題は、オンライン広告から臨床試験まで様々な分野に応用されているため、広く研究されている。しかし実際には、アームの数がとても多くなり、同時に処理するためのメモリの要求が大きくなる。本稿では,アームをストリームに表示するストリーミング環境について考察し,アルゴリズムは限られたメモリを用いてこれらのアームを処理する。ここでの目標は、後悔を最小化するだけでなく、最小限のメモリでそれを行うことです。この問題の以前のアルゴリズムは、2つの設定のうちの1つで動作する:$\Omega(\log \log T)$pass over the stream(Rathod, 2021; Chaudhuri and Kalyanakrishnan, 2020; Liau et al., 2018)または1つのパス(Maiti et al., 2021)。本稿では,任意の$B \geq 1$に対して,ストリームを渡れば$B$が許される場合のメモリと後悔のトレードオフについて検討し,任意の$B$-passアルゴリズムに対して,厳密な後悔の上限と低い境界を確立する。 o(1)$ メモリは$\widetilde\theta\big(t^{\frac{1}{2} + \frac{1}{2^{b+2}-2}}\big)$ パスで後悔し、$o(k)$ の任意の量へのメモリ増加は、$\omega(k)$ メモリを使用しない限り、この後悔を減少させる効果はほとんどない。我々の主な技術的貢献は、情報理論技術の使用とラウンド・エライズからのアイデアを必要とする低い境界であり、*残留問題*がその後のパスよりも挑戦的であることを示します。

関連論文リスト

Online Learning with Limited Information in the Sliding Window Model [65.6372644972066]
我々はスライディングウィンドウモデルにおける専門家の問題を考える。それぞれのインターバルについて、$sqrtn|mathcalI|textpolylog(nT)$ regret with $2$ query and only $textpolylog(nT)$ bits of memoryを示す。
論文参考訳（メタデータ） (2026-01-07T02:45:37Z)
Differentially Private Space-Efficient Algorithms for Counting Distinct Elements in the Turnstile Model [61.40326886123332]
ターンタイルストリーミングモデルにおいて、異なる要素を数えるという根本的な問題に対して、最初のサブ線形空間を微分プライベートなアルゴリズムを与える。本結果は, 線形問題である最先端アルゴリズムの空間要求を著しく改善する。ストリームにアイテムが現れる回数の制限付き$W$が分かっている場合、我々のアルゴリズムは$tildeO_eta(sqrtW)$ space.sqrtW)$ additive errorを提供する。
論文参考訳（メタデータ） (2025-05-29T17:21:20Z)
Tight Gap-Dependent Memory-Regret Trade-Off for Single-Pass Streaming Stochastic Multi-Armed Bandits [3.096236408131107]
Omega_alphaBig(frac(k-m+1) Tfrac1alphak1 + frac1alpha+1 sum_i:Delta_i > 0Delta_i1 - 2alphaBig)$である。これは、ストリーミングMABに対する最初の厳密なギャップ依存の後悔境界である。
論文参考訳（メタデータ） (2025-03-04T09:18:35Z)
p-Mean Regret for Stochastic Bandits [52.828710025519996]
単純で統一された UCB ベースのアルゴリズムを導入し、新しい$p$-mean の後悔境界を実現する。我々の枠組みは、特別な場合として、平均的な累積的後悔とナッシュ後悔の両方を包含する。
論文参考訳（メタデータ） (2024-12-14T08:38:26Z)
Optimal Streaming Algorithms for Multi-Armed Bandits [28.579280943038555]
ストリーミングBAI問題では,最大報酬が1-delta$の確率でアームを識別することが目的である。我々は,O(log Delta-1)$パス内で,ほぼインスタンス依存の最適なサンプル複雑性を実現するシングルアームメモリアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-23T12:54:04Z)
Reinforcement Learning and Regret Bounds for Admission Control [0.08192907805418585]
強化学習アルゴリズムの期待された後悔は、未計算の戻り値に対して$Omegaleft(sqrtDXATright)$で制限される。 UCRL2にインスパイアされたアルゴリズムを提案し、その問題の構造を用いて、有限サーバの場合、$O(Slog T + sqrtmT log T)$で期待される全後悔を上位に制限する。
論文参考訳（メタデータ） (2024-06-07T09:09:14Z)
Tight Time-Space Lower Bounds for Constant-Pass Learning [1.7387739961208148]
サンプルストリームを$q$で通過するパリティ学習アルゴリズムに対して,メモリサンプルの少ないバウンダリを厳密に証明する。このような学習者には、メモリサイズが$Omega(n2)$か、少なくとも$Omega(n)$サンプルが必要である。これまでの研究と同様に、この結果は、ほぼ直交的な概念を多く含んだ学習問題にまで及んでいる。
論文参考訳（メタデータ） (2023-10-12T06:36:31Z)
The Best Arm Evades: Near-optimal Multi-pass Streaming Lower Bounds for Pure Exploration in Multi-armed Bandits [10.329863009504303]
我々は、$O(fracnDelta2)$の最適なサンプル複雑さを利用するサブ線形メモリを持つストリーミングアルゴリズムは、$Omega(fraclog (1/Delta)log (1/Delta)$ passを必要とすることを示した。この結果は,[ICML'21] の$O(log(frac1Delta))$-passアルゴリズムと一致し, [ICML'21] は$O(1)$メモリしか使用せず, Assadi と Wang が提案したオープンな質問に答える。
論文参考訳（メタデータ） (2023-09-06T16:41:41Z)
Tight Memory-Regret Lower Bounds for Streaming Bandits [11.537938617281736]
学習者はオンラインの腕とサブリニアの腕の記憶を扱うことで後悔を最小化することを目的としています我々は,任意のアルゴリズムに対して,Omega left((TB)alpha K1-alpharight), α = 2B / (2B+1-1)$という,厳密な最悪ケースの残差を低く設定する。また、一定のアームメモリを用いて、左(TB)アルファK1-αright)$の後悔の上限を達成できるマルチパスアルゴリズムも提供する。
論文参考訳（メタデータ） (2023-06-13T16:54:13Z)
Tight Regret Bounds for Single-pass Streaming Multi-armed Bandits [3.5955736977697073]
K$アームと$T$トライアルを持つシングルパス設定では、$o(K)$メモリを持つ任意のアルゴリズムに対して、後悔の少ない$Omega(T2/3)$が証明されている。本稿では,o(K)$メモリを持つアルゴリズムに対して,Omega(K/3log/3(T))$に制限された後悔の低減を図る。提案アルゴリズムはベンチマーク均一探索アルゴリズムを大きなマージンで一貫して上回り、時には後悔を最大70%削減することを示した。
論文参考訳（メタデータ） (2023-06-03T22:41:44Z)
Smooth Non-Stationary Bandits [49.19728527803684]
本研究では、各アームの平均報酬シーケンスを$beta$-H"older関数に埋め込むことができる非定常包帯問題について検討する。スムース(つまり$betage 2$)と非スムース(つまり$beta=1$)との最初の分離は、$tilde O(k4/5 T3/5)$ regret on any $k$-armed, $2-H"older instanceでポリシーを提示することで示します。
論文参考訳（メタデータ） (2023-01-29T06:03:20Z)
Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文参考訳（メタデータ） (2022-10-15T09:22:22Z)
Nearly Minimax Algorithms for Linear Bandits with Shared Representation [86.79657561369397]
我々は、次元が$d$で、それぞれ$T$のラウンドで$M$リニアバンディットをプレイする設定を考え、これらの$M$リニアバンディットタスクは共通の$k(ll d)$次元リニア表現を共有する。我々は$widetildeOleft(dsqrtkMT + kMsqrtTright)$ regret boundsを達成する新しいアルゴリズムを考案した。
論文参考訳（メタデータ） (2022-03-29T15:27:13Z)
Corralling a Larger Band of Bandits: A Case Study on Switching Regret for Linear Bandits [99.86860277006318]
本稿では,一組の逆アルゴリズムを組み合わせ,学習することの問題点について考察する。 Agarwal et al. の CORRAL はこの目標を、$widetildeO(sqrtd S T)$ の残酷なオーバーヘッドで達成している。この問題に触発されて、後悔のオーバーヘッドが百万ドルにしか依存しない大規模バンディットアルゴリズムのバンドを囲む新しいレシピを提案する。
論文参考訳（メタデータ） (2022-02-12T21:55:44Z)
Logarithmic Regret from Sublinear Hints [76.87432703516942]
自然クエリモデルにより,アルゴリズムが$O(log T)$ regretsを$O(sqrtT)$ hintsで得ることを示す。また、$o(sqrtT)$ hintsは$Omega(sqrtT)$ regretより保証できないことも示しています。
論文参考訳（メタデータ） (2021-11-09T16:50:18Z)
A Provably Efficient Algorithm for Linear Markov Decision Process with Low Switching Cost [53.968049198926444]
スイッチングコストの低い線形MDPのための最初のアルゴリズムを提案する。このアルゴリズムは$widetildeoleft(sqrtd3h4kright)$ regretをほぼ最適の$oleft(d hlog kright)$グローバルスイッチングコストで達成する。
論文参考訳（メタデータ） (2021-01-02T18:41:27Z)
Streaming Complexity of SVMs [110.63976030971106]
本稿では,ストリーミングモデルにおけるバイアス正規化SVM問題を解く際の空間複雑性について検討する。両方の問題に対して、$frac1lambdaepsilon$の次元に対して、$frac1lambdaepsilon$よりも空間的に小さいストリーミングアルゴリズムを得ることができることを示す。
論文参考訳（メタデータ） (2020-07-07T17:10:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。