論文の概要: Top-m identification for linear bandits
- arxiv url: http://arxiv.org/abs/2103.10070v1
- Date: Thu, 18 Mar 2021 08:04:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 14:05:21.116026
- Title: Top-m identification for linear bandits
- Title(参考訳): 線形包帯のTop-m識別
- Authors: Cl\'emence R\'eda (UP M\'edecine Paris Nord, INSERM), Emilie Kaufmann
(CNRS, Lille DECCID SID), Andr\'ee Delahaye-Duriez (UP M\'edecine Paris Nord,
INSERM)
- Abstract要約: 薬物再購入への適用を動機として, 線形バンディットモデルにおける最大平均のm $ge$ 1アームの同定に取り組むための最初のアルゴリズムを提案する。
これらのアルゴリズムはgap-indexフォーカスアルゴリズム(gifa)のジェネリックファミリーに属し、線形バンドイットにおけるトップm識別に導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by an application to drug repurposing, we propose the first
algorithms to tackle the identification of the m $\ge$ 1 arms with largest
means in a linear bandit model, in the fixed-confidence setting. These
algorithms belong to the generic family of Gap-Index Focused Algorithms (GIFA)
that we introduce for Top-m identification in linear bandits. We propose a
unified analysis of these algorithms, which shows how the use of features might
decrease the sample complexity. We further validate these algorithms
empirically on simulated data and on a simple drug repurposing task.
- Abstract(参考訳): 薬物再生産への応用に動機づけられ,固定信頼設定において,リニアバンディットモデルにおいて最大の手段を持つm$\ge$ 1アームの同定に取り組む最初のアルゴリズムを提案する。
これらのアルゴリズムはgap-indexフォーカスアルゴリズム(gifa)のジェネリックファミリーに属し、線形バンドイットにおけるトップm識別に導入する。
本稿では,これらのアルゴリズムを統一的に解析することにより,特徴量の使用がサンプルの複雑さを減らしうることを示す。
さらに,これらのアルゴリズムをシミュレーションデータと単純な薬剤再導入タスクで実証的に検証する。
関連論文リスト
- Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed
Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。
CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。
提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-10-24T09:47:32Z) - Discrete Choice Multi-Armed Bandits [0.0]
本稿では,個別選択モデルのカテゴリとオンライン学習とマルチアームバンディットアルゴリズムの領域の関連性を確立する。
我々は、Exp3アルゴリズムを特定のケースとして包含して、包括的アルゴリズム群に対するサブ線形後悔境界を提供する。
一般化されたネストロジットモデルからインスピレーションを得た,対向多重武装バンディットアルゴリズムの新たなファミリーを導入する。
論文 参考訳(メタデータ) (2023-10-01T03:41:04Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Dealing With Misspecification In Fixed-Confidence Linear Top-m
Identification [0.0]
固定誤差率$delta$(固定信頼度Top-m識別)の下で最大の手段を持つmアームの識別問題について検討する。
この問題は、特に医療やレコメンデーションシステムにおける実践的な応用によって動機付けられている。
論文 参考訳(メタデータ) (2021-11-02T10:27:17Z) - Fixed-Budget Best-Arm Identification in Structured Bandits [33.27743152847947]
固定予算設定におけるベストアーム識別(BAI)は、学習エージェントが一定の回数の観測後に最適な(ベスト)腕を特定する確率を最大化する盗賊問題である。
結合一般化モデルから平均報酬推定値に基づいて最適アームを除去し,構造を組み込んだ一般トラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T01:32:43Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z) - Active Model Estimation in Markov Decision Processes [108.46146218973189]
マルコフ決定過程(MDP)をモデル化した環境の正確なモデル学習のための効率的な探索の課題について検討する。
マルコフに基づくアルゴリズムは,本アルゴリズムと極大エントロピーアルゴリズムの両方を小サンプル方式で上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-06T16:17:24Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。