論文の概要: Multi-objective Good Arm Identification with Bandit Feedback
- arxiv url: http://arxiv.org/abs/2503.10386v1
- Date: Thu, 13 Mar 2025 14:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:53.126489
- Title: Multi-objective Good Arm Identification with Bandit Feedback
- Title(参考訳): 帯域フィードバックを用いた多目的グッドアーム同定
- Authors: Xuanke Jiang, Kohei Hatano, Eiji Takimoto,
- Abstract要約: 我々は,多目的のバンドイット設定において,良好な腕識別問題を考える。
各ラウンド$t$に対して、プレイヤー/アルゴリズムは1つのアーム$i_t$を引いて、ベクトルフィードバックを受け取る。
提案アルゴリズムは,合成および実データを用いた実験において,他のベースラインよりも優れた数値性能が得られる。
- 参考スコア(独自算出の注目度): 0.589889361990138
- License:
- Abstract: We consider a good arm identification problem in a stochastic bandit setting with multi-objectives, where each arm $i\in[K]$ is associated with $M$ distributions $\mathcal{D}_i^{(1)}, \ldots, \mathcal{D}_i^{(M)}$. For each round $t$, the player/algorithm pulls one arm $i_t$ and receives a vector feedback, where each component $m$ is sampled according to $\mathcal{D}_i^{(m)}$. The target is twofold, one is finding one arm whose means are larger than the predefined thresholds $\xi_1,\ldots,\xi_M$ with a confidence bound $\delta$ and an accuracy rate $\epsilon$ with a bounded sample complexity, the other is output $\bot$ to indicate no such arm exists. We propose an algorithm with a sample complexity bound. When $M=1$ and $\epsilon = 0$, our bound is the same as the one given in the previous work when and novel bounds for $M > 1$. The proposed algorithm attains better numerical performance than other baselines in the experiments on synthetic and real datasets.
- Abstract(参考訳): 各アーム$i\in[K]$ は$M$ 分布 $\mathcal{D}_i^{(1)}, \ldots, \mathcal{D}_i^{(M)}$ に関連付けられている。
各ラウンド$t$に対して、プレーヤ/algorithmは1つのアーム$i_t$をプルし、ベクトルフィードバックを受け取り、各コンポーネント$m$は$\mathcal{D}_i^{(m)}$に従ってサンプリングされる。
ターゲットは2つであり、一方は、既定のしきい値である$\xi_1,\ldots,\xi_M$より大きい一方のアームを見つけ、他方は、信頼度が$\delta$と精度が$\epsilon$で、有界サンプルの複雑さで$\epsilon$とされ、もう一方はそのようなアームが存在しないことを示すために$\bot$が出力される。
サンプル複雑性を限定したアルゴリズムを提案する。
M=1$ と $\epsilon = 0$ のとき、我々の境界は前回の作業で与えられた値と同じであり、ノベルは$M > 1$ となる。
提案アルゴリズムは,合成および実データを用いた実験において,他のベースラインよりも優れた数値性能が得られる。
関連論文リスト
- The Communication Complexity of Approximating Matrix Rank [50.6867896228563]
この問題は通信複雑性のランダム化を$Omega(frac1kcdot n2log|mathbbF|)$とする。
アプリケーションとして、$k$パスを持つ任意のストリーミングアルゴリズムに対して、$Omega(frac1kcdot n2log|mathbbF|)$スペースローバウンドを得る。
論文 参考訳(メタデータ) (2024-10-26T06:21:42Z) - Almost Minimax Optimal Best Arm Identification in Piecewise Stationary Linear Bandits [55.957560311008926]
そこで本研究では,各文脈の平均値によって腕の質を計測するPSLBモデルを提案する。
PS$varepsilon$BAI$+$は、$varepsilon$-optimal armを、確率$ge 1-delta$と最小限のサンプルで識別することが保証される。
論文 参考訳(メタデータ) (2024-10-10T06:15:42Z) - Testing Closeness of Multivariate Distributions via Ramsey Theory [40.926523210945064]
多次元分布に対する近接性(あるいは等価性)検定の統計的課題について検討する。
具体的には、$mathbf p, mathbf q$ on $mathbb Rd$ に対して、$mathbf p=mathbf q$ と $|mathbf p-mathbf q|_A_k > epsilon$ の2つの未知の分布へのサンプルアクセスが与えられると、$mathbf p=mathbf q$ と $|mathbf p-mathbf q|_A_k > epsilon$ を区別する。
本研究の主な成果は,任意の固定次元におけるサブラーニングサンプルの複雑性を考慮に入れた,この問題に対する最初のクローズネステスタである。
論文 参考訳(メタデータ) (2023-11-22T04:34:09Z) - Thompson Sampling for Real-Valued Combinatorial Pure Exploration of
Multi-Armed Bandit [65.268245109828]
本稿では,マルチアームバンディット(R-CPE-MAB)問題の実測値について検討する。
一般トンプソンサンプリング探索法(GenTS-Explore)と呼ばれるアルゴリズムを導入する。これは,アクションセットのサイズが指数関数的に$d$で大きい場合でも動作可能な,最初のアルゴリズムである。
論文 参考訳(メタデータ) (2023-08-20T11:56:02Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Approximate Top-$m$ Arm Identification with Heterogeneous Reward
Variances [11.555138461092177]
この問題の最悪のサンプルの複雑さは$Thetaleft(sum_i = 1n fracsigma_i2epsilon2 lnfrac1delta + sum_i in Gm fracsigma_j2epsilon2 textEnt(sigma2_Gr) right)$$$$$Gm, Gl, Grである。
論文 参考訳(メタデータ) (2022-04-11T16:41:33Z) - Variance-Dependent Best Arm Identification [12.058652922228918]
マルチアームバンディットゲームにおける最適な腕を特定する問題について検討する。
武器の報酬のギャップと分散を探索する適応アルゴリズムを提案する。
このアルゴリズムは2つの対数項に最適であることを示す。
論文 参考訳(メタデータ) (2021-06-19T04:13:54Z) - Differentially Private Multi-Armed Bandits in the Shuffle Model [58.22098764071924]
シャッフルモデルにおけるマルチアームバンディット(MAB)問題に対して,$(varepsilon,delta)$-differentially privateアルゴリズムを提案する。
我々の上限は、集中モデルにおいて最もよく知られたアルゴリズムの後悔とほぼ一致し、局所モデルにおいて最もよく知られたアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2021-06-05T14:11:01Z) - The Sparse Hausdorff Moment Problem, with Application to Topic Models [5.151973524974052]
我々は$m=2k$iid二進確率変数のサンプルを用いて$k$-mixtureを同定するアルゴリズムを提案する。
加法精度$w_mincdotzetaO(k)$のモーメントを知るだけで十分である。
論文 参考訳(メタデータ) (2020-07-16T04:23:57Z) - An Optimal Elimination Algorithm for Learning a Best Arm [37.18327505953403]
古典的な問題である$(epsilon,delta)$-PAC学習をベストアームとみなす。
本稿では,$(epsilon,delta)$-PAC学習を最適なアームとして提案する。
論文 参考訳(メタデータ) (2020-06-20T20:21:33Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
十分小さな$epsilon$の場合、サンプルの複雑さで改良されたアルゴリズムを示す。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。