論文の概要: Asymptotically-Optimal Gaussian Bandits with Side Observations
- arxiv url: http://arxiv.org/abs/2505.10698v1
- Date: Thu, 15 May 2025 20:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.568789
- Title: Asymptotically-Optimal Gaussian Bandits with Side Observations
- Title(参考訳): 側方観察による漸近的最適ガウス帯域
- Authors: Alexia Atsidakou, Orestis Papadigenopoulos, Constantine Caramanis, Sujay Sanghavi, Sanjay Shakkottai,
- Abstract要約: 一般情報を用いたガウシアン・バンディットの問題について検討する。
本研究では,まず,遺言に基づくLPベース,インスタンス依存の下位境界を構築する。
- 参考スコア(独自算出の注目度): 42.43323646022268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of Gaussian bandits with general side information, as first introduced by Wu, Szepesvari, and Gyorgy. In this setting, the play of an arm reveals information about other arms, according to an arbitrary a priori known side information matrix: each element of this matrix encodes the fidelity of the information that the ``row'' arm reveals about the ``column'' arm. In the case of Gaussian noise, this model subsumes standard bandits, full-feedback, and graph-structured feedback as special cases. In this work, we first construct an LP-based asymptotic instance-dependent lower bound on the regret. The LP optimizes the cost (regret) required to reliably estimate the suboptimality gap of each arm. This LP lower bound motivates our main contribution: the first known asymptotically optimal algorithm for this general setting.
- Abstract(参考訳): We study the problem of Gaussian bandits with general side information, as first introduced by Wu, Szepesvari, andgyorgy。
この設定では、腕の演奏は他の腕に関する情報を任意の事前情報行列に従って明らかにする:この行列の各要素は、‘row’ の腕が ``column' の腕について明らかにする情報の忠実さを符号化する。
ガウス雑音の場合、このモデルは特別な場合として標準帯域幅、フルフィードバック、グラフ構造化フィードバックを仮定する。
そこで本研究では,LPに基づく漸近的インスタンス依存の低境界を後悔に基づいて構築する。
LPは、各アームの最適以下のギャップを確実に見積もるために必要なコスト(regret)を最適化する。
このLP下界は我々の主な貢献を動機付けており、この一般的な設定に対して最初に知られている漸近的最適アルゴリズムである。
関連論文リスト
- Continuous K-Max Bandits [54.21533414838677]
我々は、連続的な結果分布と弱い値-インデックスフィードバックを持つ、$K$-Maxのマルチアームバンディット問題について検討する。
この設定は、レコメンデーションシステム、分散コンピューティング、サーバスケジューリングなどにおいて重要なアプリケーションをキャプチャします。
我々の重要な貢献は、適応的な離散化とバイアス補正された信頼境界を組み合わせた計算効率の良いアルゴリズムDCK-UCBである。
論文 参考訳(メタデータ) (2025-02-19T06:37:37Z) - Causal bandits with backdoor adjustment on unknown Gaussian DAGs [5.807183284468881]
グラフ構造が不明な場合の因果帯域問題について検討する。
連続的に生成された実験データと観測データを用いて各アームのバックドア調整セットを同定する。
最適介入を逐次決定するために,修正された上位信頼境界に基づく新しい帯域幅アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-02-04T05:18:35Z) - Exact Community Recovery under Side Information: Optimality of Spectral Algorithms [1.4732811715354452]
本研究では,ノードに分散した$side$$informationの存在下で,一般の2つのコミュニティブロックモデルにおいて,コミュニティの正確な回復の問題について検討する。
我々のスペクトルアルゴリズムはいわゆる$genie$-$aided$ $estimatorsを模倣できることを示す。
論文 参考訳(メタデータ) (2024-06-18T21:48:59Z) - Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。
本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文 参考訳(メタデータ) (2021-12-08T02:20:18Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Pure Exploration in Multi-armed Bandits with Graph Side Information [11.633592964399806]
グラフ側情報を用いたマルチアームバンディットの純粋探索について検討する。
この問題に対する新しいアルゴリズムGRUB(GRaph based UcB)を提案する。
利用可能なグラフ側情報を利用することで、純粋な探索法よりも大きな改善がもたらされることが示される。
論文 参考訳(メタデータ) (2021-08-02T20:06:04Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Bandits with Mean Bounds [33.00136718515412]
本研究では,各アームの平均値に有界な側情報を与えるバンディット問題の変種について検討する。
これらがより厳密なガウス因子の推定に変換されることを証明し、これらの推定を利用する新しいアルゴリズムを開発する。
論文 参考訳(メタデータ) (2020-02-19T19:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。