論文の概要: Categorized Bandits
- arxiv url: http://arxiv.org/abs/2005.01656v1
- Date: Mon, 4 May 2020 17:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:21:22.097321
- Title: Categorized Bandits
- Title(参考訳): 分類された盗賊
- Authors: Matthieu Jedor, Jonathan Louedec, Vianney Perchet
- Abstract要約: 我々は、注文されたカテゴリーの中で腕をグループ化する、新しいマルチアーム・バンディット・セッティングを導入する。
モチベーションの例はeコマースから来ており、顧客は通常、特定の明確に識別されているが未知のカテゴリーの商品に対して、他のどの商品よりも高い欲求を持っている。
- 参考スコア(独自算出の注目度): 17.865068872754293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new stochastic multi-armed bandit setting where arms are
grouped inside ``ordered'' categories. The motivating example comes from
e-commerce, where a customer typically has a greater appetence for items of a
specific well-identified but unknown category than any other one. We introduce
three concepts of ordering between categories, inspired by stochastic dominance
between random variables, which are gradually weaker so that more and more
bandit scenarios satisfy at least one of them. We first prove
instance-dependent lower bounds on the cumulative regret for each of these
models, indicating how the complexity of the bandit problems increases with the
generality of the ordering concept considered. We also provide algorithms that
fully leverage the structure of the model with their associated theoretical
guarantees. Finally, we have conducted an analysis on real data to highlight
that those ordered categories actually exist in practice.
- Abstract(参考訳): 我々は,「オーダード」カテゴリー内で腕をグループ化する,確率的マルチアームバンディットを新たに導入する。
モチベーションの高い例はeコマースで、顧客は一般的に、特定のよく識別されているが未知のカテゴリーのアイテムに対して、他のどのカテゴリーよりも高い欲求を持っている。
確率変数間の確率的支配から着想を得た,カテゴリ間の順序付けの3つの概念を導入する。
まず,各モデルに対する累積後悔に対するインスタンス依存の下位境界を証明し,順序付け概念の一般性によって,バンドイト問題の複雑性が増大することを示す。
また、モデルの構造と関連する理論的保証を完全に活用するアルゴリズムも提供する。
最後に,これらの順序付きカテゴリが実際に存在することを明らかにするために,実データの解析を行った。
関連論文リスト
- SelEx: Self-Expertise in Fine-Grained Generalized Category Discovery [55.72840638180451]
Generalized Category Discoveryは、新しいカテゴリーを同時に発見し、既知のカテゴリを正確に分類することを目的としている。
自己超越と対照的な学習に強く依存する伝統的な手法は、細かなカテゴリーを区別する場合にしばしば不足する。
モデルが微妙な違いを認識し、未知のカテゴリを明らかにする能力を高める。
論文 参考訳(メタデータ) (2024-08-26T15:53:50Z) - Discrete Choice Multi-Armed Bandits [0.0]
本稿では,個別選択モデルのカテゴリとオンライン学習とマルチアームバンディットアルゴリズムの領域の関連性を確立する。
我々は、Exp3アルゴリズムを特定のケースとして包含して、包括的アルゴリズム群に対するサブ線形後悔境界を提供する。
一般化されたネストロジットモデルからインスピレーションを得た,対向多重武装バンディットアルゴリズムの新たなファミリーを導入する。
論文 参考訳(メタデータ) (2023-10-01T03:41:04Z) - Doubly High-Dimensional Contextual Bandits: An Interpretable Model for
Joint Assortment-Pricing [24.80305303473745]
小売業を営む上での課題は、消費者に提示する商品の選択方法や、収益や利益を最大化する商品の価格設定方法だ。
コンテクスト的帯域幅に基づくアソシエーションプライシングへの共同アプローチを提案する。
我々は、バンディット方式による収益や利益の少なくとも3倍の増加と、学習された潜在因子モデルの解釈可能性を示す。
論文 参考訳(メタデータ) (2023-09-14T00:45:36Z) - Uplifting Bandits [23.262188897812475]
報酬は複数の確率変数の和であり、各アクションはそれらの一部の分布だけを変化させるマルチアームバンディットモデルを導入する。
このモデルはマーケティングキャンペーンやレコメンデーションシステムによって動機付けられており、そこでは変数が個々の顧客の結果を表す。
ベースライン上のアクションの上昇を推定する UCB スタイルのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T18:00:56Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Model Selection for Generic Contextual Bandits [20.207989166682832]
適応文脈帯域(tt Family ACB)と呼ばれる改良型アルゴリズムを提案する。
我々は、このアルゴリズムが適応的であること、すなわち、リットレートが任意の証明可能な文脈帯域幅アルゴリズムと整合していることを証明する。
また,真のモデルクラスを知らないにもかかわらず,ETCスタイルのアルゴリズムでも同様の後悔境界が得られることを示す。
論文 参考訳(メタデータ) (2021-07-07T19:35:31Z) - Learning over no-Preferred and Preferred Sequence of items for Robust
Recommendation [66.8722561224499]
暗黙のフィードバックよりも大規模なレコメンダーシステム(RS)を訓練するための理論的に確立されたシーケンシャル戦略を提案する。
本稿では、モデルパラメータをモメンタリメソッドまたはグラデーションベースのアプローチで更新するこの戦略の2つのバリエーションを紹介します。
論文 参考訳(メタデータ) (2020-12-12T22:10:15Z) - Influence Diagram Bandits: Variational Thompson Sampling for Structured
Bandit Problems [40.957688390621385]
我々のフレームワークは、アクション、潜伏変数、観察の間の複雑な統計的依存関係をキャプチャする。
我々のモデルで効率的に行動することを学ぶ新しいオンライン学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-07-09T16:25:40Z) - A Novel Confidence-Based Algorithm for Structured Bandits [129.30402124516507]
両腕の報酬が他の腕の報酬と相関する可能性のある有限腕包帯について検討した。
本稿では、与えられた構造を利用して、真のバンディット問題のパラメータに対する信頼セットを構築する新しい位相アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-23T19:52:44Z) - Best Arm Identification for Cascading Bandits in the Fixed Confidence
Setting [81.70513857417106]
CascadeBAIを設計し、分析する。これは、$K$アイテムのベストセットを見つけるアルゴリズムである。
CascadeBAIの時間的複雑さの上限は、決定的な分析課題を克服することによって導かれる。
その結果,カスケードBAIの性能は,時間的複雑性の低い境界の導出により,いくつかの実践的状況において最適であることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T16:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。