論文の概要: Instance-Sensitive Algorithms for Pure Exploration in Multinomial Logit
Bandit
- arxiv url: http://arxiv.org/abs/2012.01499v1
- Date: Wed, 2 Dec 2020 20:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 02:12:09.812872
- Title: Instance-Sensitive Algorithms for Pure Exploration in Multinomial Logit
Bandit
- Title(参考訳): 多項ロジットバンドにおける純粋探索のためのインスタンスセンシティブアルゴリズム
- Authors: Nikolai Karpov, Qin Zhang
- Abstract要約: Multinomial Logit Bandit (MNL-bandit)は、オンライン学習および運用研究において人気のあるモデルである。
MNL帯域での純粋な探索のための効率的なアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 9.467098519620263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by real-world applications such as fast fashion retailing and
online advertising, the Multinomial Logit Bandit (MNL-bandit) is a popular
model in online learning and operations research, and has attracted much
attention in the past decade. However, it is a bit surprising that pure
exploration, a basic problem in bandit theory, has not been well studied in
MNL-bandit so far. In this paper we give efficient algorithms for pure
exploration in MNL-bandit. Our algorithms achieve instance-sensitive pull
complexities. We also complement the upper bounds by an almost matching lower
bound.
- Abstract(参考訳): ファストファッション小売やオンライン広告といった現実世界のアプリケーションによって動機付けられ、MNLバンド(Multinomial Logit Bandit)はオンライン学習とオペレーション研究で人気のあるモデルであり、過去10年間に多くの注目を集めてきた。
しかし、バンドイット理論の基本的な問題である純粋な探索が、これまでMNLバンドイットにおいて十分に研究されていないことは、少々驚きである。
本稿では,MNL帯域における純粋探索のための効率的なアルゴリズムを提案する。
当社のアルゴリズムはインスタンスセンシティブなプル複雑度を実現します。
また、上界をほぼ一致する下界で補う。
関連論文リスト
- Near Optimal Pure Exploration in Logistic Bandits [17.98959620987217]
一般化線形モデル(GLM)の帯域幅における一般純粋探索問題に対する最初のトラック・アンド・ストップアルゴリズムを開発した。
Log-TSは、期待される複雑性のインスタンス固有の下限を対数係数に近似する効率的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-10-28T00:05:57Z) - Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Zero-Inflated Bandits [11.60342504007264]
ゼロ膨らんだ帯状地について検討し、報酬をゼロ膨らんだ分布と呼ばれる古典的な半パラメトリック分布としてモデル化する。
一般報奨仮定と準ガウス報奨を含む文脈一般化線形報奨を併用した多腕包帯の両面における後悔境界を導出する。
多くの設定において、我々のアルゴリズムの後悔率は、最小限の最適か最先端のどちらかである。
論文 参考訳(メタデータ) (2023-12-25T03:13:21Z) - An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Neural Exploitation and Exploration of Contextual Bandits [51.25537742455235]
本研究では,ニューラルネットワークを用いたコンテキスト型マルチアームバンディットの活用と探索について検討する。
EE-Netは、ニューラルベースによる新たなエクスプロイトと探索戦略である。
EE-Netは、実世界のデータセット上での線形およびニューラルネットワークの帯域ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-05T18:34:49Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Convolutional Neural Bandit: Provable Algorithm for Visual-aware
Advertising [41.30283330958433]
コンテクチュアルなマルチアームバンディットは、レコメンデーション手順に存在する探索・探索ジレンマを解決するための広告の適用に成功している。
本稿では,視覚的広告に触発され,文脈的帯域幅アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-02T03:02:29Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。