論文の概要: GBOSE: Generalized Bandit Orthogonalized Semiparametric Estimation
- arxiv url: http://arxiv.org/abs/2301.08781v1
- Date: Fri, 20 Jan 2023 19:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 16:33:31.425947
- Title: GBOSE: Generalized Bandit Orthogonalized Semiparametric Estimation
- Title(参考訳): GBOSE: 一般化帯域直交半パラメトリック推定
- Authors: Mubarrat Chowdhury, Elkhan Ismayilzada, Khalequzzaman Sayem and Gi-Soo
Kim
- Abstract要約: そこで本稿では,半パラメトリック報酬モデルを用いた新たなアルゴリズムを提案する。
我々の研究は、同じアクションフィルタリング法に基づいて構築されたアルゴリズムを提案することによって、同様の報酬モデルを用いて、最先端の複雑さの別の代表的アルゴリズムの範囲を広げる。
本研究は,2本以上の腕を持つ症例に対して,既知の半パラメトリックバンディットアルゴリズムから,これらの手法の優位性を確認するためのシミュレーション結果と,その上界の複雑さを導出したものである。
- 参考スコア(独自算出の注目度): 3.441021278275805
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In sequential decision-making scenarios i.e., mobile health recommendation
systems revenue management contextual multi-armed bandit algorithms have
garnered attention for their performance. But most of the existing algorithms
are built on the assumption of a strictly parametric reward model mostly linear
in nature. In this work we propose a new algorithm with a semi-parametric
reward model with state-of-the-art complexity of upper bound on regret amongst
existing semi-parametric algorithms. Our work expands the scope of another
representative algorithm of state-of-the-art complexity with a similar reward
model by proposing an algorithm built upon the same action filtering procedures
but provides explicit action selection distribution for scenarios involving
more than two arms at a particular time step while requiring fewer
computations. We derive the said complexity of the upper bound on regret and
present simulation results that affirm our methods superiority out of all
prevalent semi-parametric bandit algorithms for cases involving over two arms.
- Abstract(参考訳): 逐次意思決定シナリオ、すなわち、モバイルヘルスレコメンデーションシステム 収益管理 コンテキストマルチアームのバンディットアルゴリズムは、そのパフォーマンスに注目を集めている。
しかし、既存のアルゴリズムのほとんどは、厳密にパラメトリックな報酬モデルの仮定に基づいて構築されている。
本研究では,既存の半パラメトリックアルゴリズムにおいて,半パラメトリック報酬モデルを用いた新たなアルゴリズムを提案する。
我々の研究は、同じアクションフィルタリング手順に基づいて構築されたアルゴリズムを提案しながら、計算を少なくしながら、特定のステップで2つ以上の腕を含むシナリオに対して明示的な行動選択分布を提供することにより、同様の報酬モデルを用いて、最先端の複雑さの別の代表的アルゴリズムの範囲を広げる。
後悔に対する上界の複雑さを導出し,本手法が一般的な半パラメトリックバンディットアルゴリズムから2本以上の腕を含む場合の優位性を肯定するシミュレーション結果を得る。
関連論文リスト
- Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - From Optimization to Control: Quasi Policy Iteration [3.4376560669160394]
準政治反復(QPI)と呼ばれる新しい制御アルゴリズムを提案する。
QPIは、政策反復アルゴリズムにおける「ヘシアン」行列の新たな近似に基づいて、MDPに特有の2つの線形構造制約を利用する。
これは、割引係数に対する感度が極めて低い政策反復と同様の実証的な収束挙動を示す。
論文 参考訳(メタデータ) (2023-11-18T21:00:14Z) - Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed
Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。
CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。
提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-10-24T09:47:32Z) - Discrete Choice Multi-Armed Bandits [0.0]
本稿では,個別選択モデルのカテゴリとオンライン学習とマルチアームバンディットアルゴリズムの領域の関連性を確立する。
我々は、Exp3アルゴリズムを特定のケースとして包含して、包括的アルゴリズム群に対するサブ線形後悔境界を提供する。
一般化されたネストロジットモデルからインスピレーションを得た,対向多重武装バンディットアルゴリズムの新たなファミリーを導入する。
論文 参考訳(メタデータ) (2023-10-01T03:41:04Z) - A Fast Algorithm for the Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [55.2480439325792]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
本稿では,差分に基づく探索法 (CombGapE) アルゴリズムを提案する。
我々は,CombGapEアルゴリズムが,合成データセットと実世界のデータセットの両方において,既存の手法を大幅に上回っていることを数値的に示す。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。
我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。
標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文 参考訳(メタデータ) (2021-07-09T16:04:24Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - An Empirical Process Approach to the Union Bound: Practical Algorithms
for Combinatorial and Linear Bandits [34.06611065493047]
本稿では、信頼度と予算設定の固定化において、純探索線形帯域問題に対する近似アルゴリズムを提案する。
サンプルの複雑性がインスタンスの幾何でスケールし、アームの数に縛られた明示的な結合を避けるアルゴリズムを提供する。
また,固定予算設定における線形帯域幅に対する最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-21T00:56:33Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z) - SONIA: A Symmetric Blockwise Truncated Optimization Algorithm [2.9923891863939938]
本研究は, 経験的リスクに対する新しいアルゴリズムを提案する。
このアルゴリズムは、一部分空間における二階探索型更新を計算し、1階探索法と2階探索法の間のギャップを埋める。
論文 参考訳(メタデータ) (2020-06-06T19:28:14Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。