Fugu-MT 論文翻訳(概要): DART: aDaptive Accept RejecT for non-linear top-K subset identification

論文の概要: DART: aDaptive Accept RejecT for non-linear top-K subset identification

arxiv url: http://arxiv.org/abs/2011.07687v1
Date: Mon, 16 Nov 2020 02:10:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-24 23:40:03.103611
Title: DART: aDaptive Accept RejecT for non-linear top-K subset identification
Title（参考訳）: dart: 非線形top-kサブセット識別のためのadaptive accept reject
Authors: Mridul Agarwal, Vaneet Aggarwal, Christopher J. Quinn, Abhishek Umrawal
Abstract要約: 我々は、各ステップでN$アームからK$を選択するという盗賊問題を考える。本稿では,各アームのフィードバックや報酬関数の線形性を必要としない新しいアルゴリズムを提案する。我々のアルゴリズムであるaDaptive Accept RejecT (DART)は、良好な腕を逐次見つけ、信頼境界に基づいて悪い腕を除去する。
参考スコア（独自算出の注目度）: 34.68931784199599
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider the bandit problem of selecting $K$ out of $N$ arms at each time step. The reward can be a non-linear function of the rewards of the selected individual arms. The direct use of a multi-armed bandit algorithm requires choosing among $\binom{N}{K}$ options, making the action space large. To simplify the problem, existing works on combinatorial bandits {typically} assume feedback as a linear function of individual rewards. In this paper, we prove the lower bound for top-$K$ subset selection with bandit feedback with possibly correlated rewards. We present a novel algorithm for the combinatorial setting without using individual arm feedback or requiring linearity of the reward function. Additionally, our algorithm works on correlated rewards of individual arms. Our algorithm, aDaptive Accept RejecT (DART), sequentially finds good arms and eliminates bad arms based on confidence bounds. DART is computationally efficient and uses storage linear in $N$. Further, DART achieves a regret bound of $\tilde{\mathcal{O}}(K\sqrt{KNT})$ for a time horizon $T$, which matches the lower bound in bandit feedback up to a factor of $\sqrt{\log{2NT}}$. When applied to the problem of cross-selling optimization and maximizing the mean of individual rewards, the performance of the proposed algorithm surpasses that of state-of-the-art algorithms. We also show that DART significantly outperforms existing methods for both linear and non-linear joint reward environments.
Abstract（参考訳）: 私たちは、各時間ステップで$n$ armsから$k$を選択するというバンディットの問題を考えています。報酬は、選択された個々の腕の報酬の非線形機能である。マルチアームのbanditアルゴリズムを直接使用するには、$\binom{n}{k}$オプションを選択する必要がある。問題を単純化するため、既存の組合せバンディットの作品は、フィードバックを個々の報酬の線形関数として想定している。本稿では,上位$K$サブセット選択の下位境界を,潜在的に相関した報酬を持つ帯域フィードバックで証明する。本稿では,個別のアームフィードバックや報酬関数の線形性を必要としない組合せ設定のための新しいアルゴリズムを提案する。さらに,本アルゴリズムは個々の腕の報酬に相関する。我々のアルゴリズムであるaDaptive Accept RejecT (DART)は、良好な腕を逐次見つけ、信頼境界に基づいて悪い腕を取り除く。 DARTは計算効率が良く、容量は$N$で線形である。さらに、DART は、時間的地平線に対して $\tilde{\mathcal{O}}(K\sqrt{KNT})$ の後悔境界を達成する。クロスセールス最適化と個人報酬の平均値の最大化の問題に適用した場合,提案アルゴリズムの性能は最先端のアルゴリズムを上回る。また,DARTは線形および非線形の連接報酬環境において既存手法よりも優れていた。

関連論文リスト

Stochastic Bandits Robust to Adversarial Attacks [33.278131584647745]
本稿では,敵攻撃に対して頑健なマルチアームバンディットアルゴリズムについて検討する。我々は、攻撃予算の知識の有無に関わらず、このモデルの2つのケースを調査する。我々は、加法的あるいは乗法的な$C$依存項を持つ後悔境界を持つ2種類のアルゴリズムを考案する。
論文参考訳（メタデータ） (2024-08-16T17:41:35Z)
Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。 SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文参考訳（メタデータ） (2023-12-13T11:08:25Z)
PopArt: Efficient Sparse Regression and Experimental Design for Optimal Sparse Linear Bandits [29.097522376094624]
そこで我々はPopArtと呼ばれる単純で効率的なスパース線形推定法を提案する。我々は, 粗い線形バンディットアルゴリズムを導出し, 美術品の状態に対する後悔の上界の改善を享受する。
論文参考訳（メタデータ） (2022-10-25T19:13:20Z)
Nearly Minimax Algorithms for Linear Bandits with Shared Representation [86.79657561369397]
我々は、次元が$d$で、それぞれ$T$のラウンドで$M$リニアバンディットをプレイする設定を考え、これらの$M$リニアバンディットタスクは共通の$k(ll d)$次元リニア表現を共有する。我々は$widetildeOleft(dsqrtkMT + kMsqrtTright)$ regret boundsを達成する新しいアルゴリズムを考案した。
論文参考訳（メタデータ） (2022-03-29T15:27:13Z)
Combinatorial Bandits without Total Order for Arms [52.93972547896022]
セット依存報酬分布を捕捉し、武器の合計順序を仮定しない報酬モデルを提案する。我々は、新しい後悔分析を開発し、$Oleft(frack2 n log Tepsilonright)$ gap-dependent regret boundと$Oleft(k2sqrtn T log Tright)$ gap-dependent regret boundを示す。
論文参考訳（メタデータ） (2021-03-03T23:08:59Z)
Top-$k$ eXtreme Contextual Bandits with Arm Hierarchy [71.17938026619068]
我々は、腕の総数が膨大であることができるトップ$ k$極端な文脈的包帯問題を研究します。まず,Inverse Gap Weighting戦略を用いて,非極端に実現可能な設定のアルゴリズムを提案する。我々のアルゴリズムは、$O(ksqrt(A-k+1)T log (|mathcalF|T))$である。
論文参考訳（メタデータ） (2021-02-15T19:10:52Z)
Near-Optimal Regret Bounds for Contextual Combinatorial Semi-Bandits with Linear Payoff Functions [53.77572276969548]
我々は、C$2$UCBアルゴリズムが分割マトロイド制約に対して最適な後悔結合$tildeO(dsqrtkT + dk)$を有することを示した。一般的な制約に対して,C$2$UCBアルゴリズムで腕の報酬推定値を変更するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-01-20T04:29:18Z)
Adversarial Combinatorial Bandits with General Non-linear Reward Functions [29.775097827244853]
既知の非線形報酬関数を用いて対向性バンディットを研究し、対向性線形バンディットに関する既存の研究を延長する。我々は、$N$の腕と$K$の腕のサブセットが$T$の期間のそれぞれで選択されている場合、ミニマックスの最適な後悔は$widetildeTheta_d(Nd T)$報酬関数が$dK$の$d$度であり、$ta_K(sqrtK T)$報酬関数が低度ではない場合です。
論文参考訳（メタデータ） (2021-01-05T00:56:27Z)
Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-17T22:32:19Z)
Blocking Bandits [33.14975454724348]
我々は、腕を弾くことで固定時間帯で使用できなくなる、新しいマルチアームバンディット・セッティングについて考察する。全ての武器の報酬と遅延の事前知識により、累積報酬を最適化する問題は擬似多項式時間アルゴリズムを含まないことを示した。我々は,このアルゴリズムに対して,$c log T + o(log T)$ cumulative regret を持つ UCB ベースのアルゴリズムを設計する。
論文参考訳（メタデータ） (2019-07-27T20:42:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。