論文の概要: Some performance considerations when using multi-armed bandit algorithms
in the presence of missing data
- arxiv url: http://arxiv.org/abs/2205.03820v1
- Date: Sun, 8 May 2022 09:20:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-11 05:39:19.610430
- Title: Some performance considerations when using multi-armed bandit algorithms
in the presence of missing data
- Title(参考訳): 欠落データの存在下でのマルチアームバンディットアルゴリズム使用時の性能に関する考察
- Authors: Xijin Chen, Kim May Lee, Sofia S. Villar, and David S. Robertson
- Abstract要約: マルチアームのバンディットアルゴリズムを使用する場合、欠落するデータの潜在的な影響は見落とされがちである。
ランダムに報酬が失われていると仮定したシミュレーション研究により,欠落したデータが複数の帯域幅アルゴリズムに与える影響について検討した。
- 参考スコア(独自算出の注目度): 1.0499611180329804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When using multi-armed bandit algorithms, the potential impact of missing
data is often overlooked. In practice, the simplest approach is to ignore
missing outcomes and continue to sample following the bandit algorithm. We
investigate the impact of missing data on several bandit algorithms via a
simulation study assuming the rewards are missing at random. We focus on
two-armed bandit algorithms with binary outcomes in the context of patient
allocation for clinical trials with relatively small sample sizes. However, our
results can apply to other applications of bandit algorithms where missing data
is expected to occur. We assess the resulting operating characteristics,
including the expected reward (i.e., allocation results). Different
probabilities of missingness in both arms are considered. The key finding of
our work is that when using the simplest strategy of ignoring missing data, the
corresponding impact on the performance of multi-armed bandit strategies varies
according to their way of balancing the exploration-exploitation trade-off.
Algorithms that are geared towards exploration continue to assign samples to
the arm with more missing responses, and this arm is perceived as the superior
arm by the algorithm. By contrast, algorithms that are geared towards
exploitation would do the opposite and not assign samples to the arms with more
missing responses. Furthermore, for algorithms focusing more on exploration, we
illustrate that the problem of missing responses can be alleviated using a
simple mean imputation approach.
- Abstract(参考訳): マルチアームバンディットアルゴリズムを使用する場合、欠落したデータの影響の可能性はしばしば見過ごされる。
実際には、最も単純なアプローチは、欠落した結果を無視し、バンディットアルゴリズムに従ってサンプルを継続することである。
本研究では,ランダムに報酬が失われている場合を想定して,いくつかのバンディットアルゴリズムに対するデータ欠落の影響をシミュレーションにより検証する。
比較的小さなサンプルサイズをもつ臨床試験において, 患者割り当ての文脈において, バイナリ結果の両腕バンディットアルゴリズムに焦点を当てた。
しかし,この結果は,データ不足が予想されるバンディットアルゴリズムの他の応用にも応用できる。
我々は、期待される報酬(すなわち割り当て結果)を含む運用特性を評価する。
両腕の欠如の確率は異なると考えられる。
我々の研究の鍵となる発見は、欠落したデータを無視する最も単純な戦略を使用する場合、マルチアームバンディット戦略のパフォーマンスに対する対応する影響は、探索・探索トレードオフのバランスの方法によって異なることである。
探索に向けられたアルゴリズムは、より欠落した応答でサンプルを腕に割り当て続けており、このアームはアルゴリズムによって上腕と見なされている。
対照的に、搾取に向けられたアルゴリズムは逆を行い、より多くの応答が欠けた腕にサンプルを割り当てない。
さらに,より探索に焦点を絞ったアルゴリズムでは,単純な平均インプテーション手法を用いて,応答の欠如を軽減できることを示す。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Extreme Bandits using Robust Statistics [12.6543086847761]
我々は,古典的バンディット設定における期待値とは対照的に,極端な値のみが関心を持つ状況に動機づけられたマルチアームバンディット問題を考える。
本研究では,ロバストな統計量を用いた分布自由アルゴリズムを提案し,統計特性を特徴付ける。
論文 参考訳(メタデータ) (2021-09-09T17:24:15Z) - Towards Optimal Algorithms for Multi-Player Bandits without Collision
Sensing Information [9.467920768170515]
衝突センシング情報のないマルチプレイヤーマルチアームバンディットのための新しいアルゴリズムを提案する。
このアルゴリズムは最先端アルゴリズムで共有される2つの問題を回避している。
それは腕の最小限の期待報酬に低い境界を入力として必要とせず、そのパフォーマンスは最小の期待報酬に逆比例してスケールしません。
論文 参考訳(メタデータ) (2021-03-24T10:14:16Z) - Unsupervised Anomaly Detectors to Detect Intrusions in the Current
Threat Landscape [0.11470070927586014]
本研究では,Isolation Forests,One-Class Support Vector Machines,Self-Organizing Mapsが侵入検知用よりも有効であることを示した。
不安定、分散、あるいは非可逆的行動による攻撃を、ファジング、ワーム、ボットネットなどによって検出することがより困難である点を詳述する。
論文 参考訳(メタデータ) (2020-12-21T14:06:58Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - Resource Allocation in Multi-armed Bandit Exploration: Overcoming
Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。
特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文 参考訳(メタデータ) (2020-10-31T18:19:29Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。