論文の概要: Towards Fundamental Limits of Multi-armed Bandits with Random Walk
Feedback
- arxiv url: http://arxiv.org/abs/2011.01445v7
- Date: Sat, 25 Jun 2022 17:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 05:27:05.173016
- Title: Towards Fundamental Limits of Multi-armed Bandits with Random Walk
Feedback
- Title(参考訳): ランダムウォークフィードバックによるマルチアームバンディットの基本限界に向けて
- Authors: Tianyu Wang, Lin F. Yang, Zizhuo Wang
- Abstract要約: 我々は,未知かつ潜在的に変化するグラフにおいて,アームがノードであるような新しいマルチアーマッド・バンドイット(MAB)問題を考える。
本研究は, 軌跡と逆向きの設定の両方を研究することによって, この問題の包括的理解を提供する。
- 参考スコア(独自算出の注目度): 27.153454425433296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider a new Multi-Armed Bandit (MAB) problem where arms
are nodes in an unknown and possibly changing graph, and the agent (i)
initiates random walks over the graph by pulling arms, (ii) observes the random
walk trajectories, and (iii) receives rewards equal to the lengths of the
walks. We provide a comprehensive understanding of this problem by studying
both the stochastic and the adversarial setting. We show that this problem is
not easier than a standard MAB in an information theoretical sense, although
additional information is available through random walk trajectories. Behaviors
of bandit algorithms on this problem are also studied.
- Abstract(参考訳): 本稿では,未知で変化する可能性のあるグラフ内のノードをアームとするマルチアームドバンディット(mab)問題とエージェントについて検討する。
(i)腕を引いてランダムにグラフの上を歩く。
(ii)ランダムウォークの軌跡を観察し、
(三)散歩の長さに匹敵する報酬を受ける。
我々は,確率的および対角的設定の両方を研究することにより,この問題の包括的理解を提供する。
情報理論的な意味では、この問題は通常のmabよりも容易ではないが、ランダムウォークの軌跡から追加情報が得られる。
この問題に対するバンディットアルゴリズムの挙動も研究されている。
関連論文リスト
- Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。
また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文 参考訳(メタデータ) (2024-05-25T10:25:48Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Forced Exploration in Bandit Problems [12.13966146283641]
マルチアームバンディット(MAB)は古典的なシーケンシャルな決定問題である。
本稿では,報酬分布に関する情報を使わずに実装可能なマルチアームバンディットアルゴリズムを設計することを目的とする。
論文 参考訳(メタデータ) (2023-12-12T14:00:29Z) - Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。
本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文 参考訳(メタデータ) (2021-12-08T02:20:18Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models [7.458639397686894]
効果的に探索する方法は、多腕バンディットにおける中心的な問題である。
メタデータに基づくマルチタスクバンディット問題を導入する。
ベイズ階層モデルのレンズを通してタスク関係を捉えることを提案する。
論文 参考訳(メタデータ) (2021-08-13T22:45:05Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - A Novel Confidence-Based Algorithm for Structured Bandits [129.30402124516507]
両腕の報酬が他の腕の報酬と相関する可能性のある有限腕包帯について検討した。
本稿では、与えられた構造を利用して、真のバンディット問題のパラメータに対する信頼セットを構築する新しい位相アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-23T19:52:44Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。