論文の概要: Discrete Choice Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2310.00562v1
- Date: Sun, 1 Oct 2023 03:41:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 03:28:54.442398
- Title: Discrete Choice Multi-Armed Bandits
- Title(参考訳): 離散選択多関節バンド
- Authors: Emerson Melo and David M\"uller
- Abstract要約: 本稿では,個別選択モデルのカテゴリとオンライン学習とマルチアームバンディットアルゴリズムの領域の関連性を確立する。
我々は、Exp3アルゴリズムを特定のケースとして包含して、包括的アルゴリズム群に対するサブ線形後悔境界を提供する。
一般化されたネストロジットモデルからインスピレーションを得た,対向多重武装バンディットアルゴリズムの新たなファミリーを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper establishes a connection between a category of discrete choice
models and the realms of online learning and multiarmed bandit algorithms. Our
contributions can be summarized in two key aspects. Firstly, we furnish
sublinear regret bounds for a comprehensive family of algorithms, encompassing
the Exp3 algorithm as a particular case. Secondly, we introduce a novel family
of adversarial multiarmed bandit algorithms, drawing inspiration from the
generalized nested logit models initially introduced by \citet{wen:2001}. These
algorithms offer users the flexibility to fine-tune the model extensively, as
they can be implemented efficiently due to their closed-form sampling
distribution probabilities. To demonstrate the practical implementation of our
algorithms, we present numerical experiments, focusing on the stochastic bandit
case.
- Abstract(参考訳): 本稿では,個別選択モデルのカテゴリとオンライン学習の領域,マルチアーム付きバンディットアルゴリズムの関連について述べる。
私たちの貢献は2つの重要な側面で要約できます。
まず,一例としてExp3アルゴリズムを包含した包括的アルゴリズムのサブ線形後悔境界を提案する。
第2に,先述の \citet{wen:2001} が最初に導入した一般化ネストロジットモデルからインスピレーションを得た,対数多重武装バンディットアルゴリズムの新たなファミリーを導入する。
これらのアルゴリズムは、クローズドフォームサンプリング分布確率によって効率的に実装できるため、モデルを広範囲にわたって微調整する柔軟性を提供する。
提案アルゴリズムの実践的実装を実証するために,確率的バンディットケースに着目した数値実験を行った。
関連論文リスト
- Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - GBOSE: Generalized Bandit Orthogonalized Semiparametric Estimation [3.441021278275805]
そこで本稿では,半パラメトリック報酬モデルを用いた新たなアルゴリズムを提案する。
我々の研究は、同じアクションフィルタリング法に基づいて構築されたアルゴリズムを提案することによって、同様の報酬モデルを用いて、最先端の複雑さの別の代表的アルゴリズムの範囲を広げる。
本研究は,2本以上の腕を持つ症例に対して,既知の半パラメトリックバンディットアルゴリズムから,これらの手法の優位性を確認するためのシミュレーション結果と,その上界の複雑さを導出したものである。
論文 参考訳(メタデータ) (2023-01-20T19:39:10Z) - Stochastic Rising Bandits [40.32303434592863]
本研究は、腕が単調に非減少している、安静時および安静時バンディットの特定の症例について検討する。
この特性により、ペイオフの規則性を利用して、厳密な後悔の限界を提供する、特別に構築されたアルゴリズムを設計することができる。
我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文 参考訳(メタデータ) (2022-12-07T17:30:45Z) - Nested bandits [34.793913964978486]
多くのオンライン意思決定プロセスにおいて、最適化エージェントは、多くの固有の類似性を持つ多くの選択肢を選択するために呼ばれる。
本研究では,学習者の代替手段の階層的探索を行うネスト指数重み付けアルゴリズムを提案する。
そこで我々は,学習者の後悔に対して,選択肢間の類似度の高いオンライン学習問題を効率的に解決できることを示す一連の厳密な境界点を得る。
論文 参考訳(メタデータ) (2022-06-19T08:08:38Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。
我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。
標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文 参考訳(メタデータ) (2021-07-09T16:04:24Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。
アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。
ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文 参考訳(メタデータ) (2020-02-20T10:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。