Fugu-MT 論文翻訳(概要): GBOSE: Generalized Bandit Orthogonalized Semiparametric Estimation

論文の概要: GBOSE: Generalized Bandit Orthogonalized Semiparametric Estimation

arxiv url: http://arxiv.org/abs/2301.08781v1
Date: Fri, 20 Jan 2023 19:39:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-24 16:33:31.425947
Title: GBOSE: Generalized Bandit Orthogonalized Semiparametric Estimation
Title（参考訳）: GBOSE: 一般化帯域直交半パラメトリック推定
Authors: Mubarrat Chowdhury, Elkhan Ismayilzada, Khalequzzaman Sayem and Gi-Soo Kim
Abstract要約: そこで本稿では,半パラメトリック報酬モデルを用いた新たなアルゴリズムを提案する。我々の研究は、同じアクションフィルタリング法に基づいて構築されたアルゴリズムを提案することによって、同様の報酬モデルを用いて、最先端の複雑さの別の代表的アルゴリズムの範囲を広げる。本研究は,2本以上の腕を持つ症例に対して,既知の半パラメトリックバンディットアルゴリズムから,これらの手法の優位性を確認するためのシミュレーション結果と,その上界の複雑さを導出したものである。
参考スコア（独自算出の注目度）: 3.441021278275805
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In sequential decision-making scenarios i.e., mobile health recommendation systems revenue management contextual multi-armed bandit algorithms have garnered attention for their performance. But most of the existing algorithms are built on the assumption of a strictly parametric reward model mostly linear in nature. In this work we propose a new algorithm with a semi-parametric reward model with state-of-the-art complexity of upper bound on regret amongst existing semi-parametric algorithms. Our work expands the scope of another representative algorithm of state-of-the-art complexity with a similar reward model by proposing an algorithm built upon the same action filtering procedures but provides explicit action selection distribution for scenarios involving more than two arms at a particular time step while requiring fewer computations. We derive the said complexity of the upper bound on regret and present simulation results that affirm our methods superiority out of all prevalent semi-parametric bandit algorithms for cases involving over two arms.
Abstract（参考訳）: 逐次意思決定シナリオ、すなわち、モバイルヘルスレコメンデーションシステム収益管理コンテキストマルチアームのバンディットアルゴリズムは、そのパフォーマンスに注目を集めている。しかし、既存のアルゴリズムのほとんどは、厳密にパラメトリックな報酬モデルの仮定に基づいて構築されている。本研究では,既存の半パラメトリックアルゴリズムにおいて,半パラメトリック報酬モデルを用いた新たなアルゴリズムを提案する。我々の研究は、同じアクションフィルタリング手順に基づいて構築されたアルゴリズムを提案しながら、計算を少なくしながら、特定のステップで2つ以上の腕を含むシナリオに対して明示的な行動選択分布を提供することにより、同様の報酬モデルを用いて、最先端の複雑さの別の代表的アルゴリズムの範囲を広げる。後悔に対する上界の複雑さを導出し,本手法が一般的な半パラメトリックバンディットアルゴリズムから2本以上の腕を含む場合の優位性を肯定するシミュレーション結果を得る。

関連論文リスト

Are Randomized Quantum Linear Systems Solvers Practical? [0.0]
ランダム化量子アルゴリズムは、量子シミュレーションと量子線型代数の文脈で提案されている。ランダム化量子線形系解法における全誤差を制御する全ての関連するパラメータに明示的な境界を与える。私たちの研究は、理論的なアルゴリズムの提案と効率的なハードウェア実装の橋渡しとして役立ちます。
論文参考訳（メタデータ） (2025-10-15T17:12:55Z)
A Double Inertial Forward-Backward Splitting Algorithm With Applications to Regression and Classification Problems [0.0]
本稿では,2つの慣性パラメータを持つ前方後方分割アルゴリズムを提案する。これは、共役作用素と極大単調作用素の和が消える実ヒルベルト空間の点を見つけることを目的としている。
論文参考訳（メタデータ） (2025-05-01T16:54:41Z)
Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。 SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文参考訳（メタデータ） (2023-12-13T11:08:25Z)
From Optimization to Control: Quasi Policy Iteration [3.4376560669160394]
準政治反復(QPI)と呼ばれる新しい制御アルゴリズムを提案する。 QPIは、政策反復アルゴリズムにおける「ヘシアン」行列の新たな近似に基づいて、MDPに特有の2つの線形構造制約を利用する。これは、割引係数に対する感度が極めて低い政策反復と同様の実証的な収束挙動を示す。
論文参考訳（メタデータ） (2023-11-18T21:00:14Z)
Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。 CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文参考訳（メタデータ） (2023-10-24T09:47:32Z)
Discrete Choice Multi-Armed Bandits [0.0]
本稿では,個別選択モデルのカテゴリとオンライン学習とマルチアームバンディットアルゴリズムの領域の関連性を確立する。我々は、Exp3アルゴリズムを特定のケースとして包含して、包括的アルゴリズム群に対するサブ線形後悔境界を提供する。一般化されたネストロジットモデルからインスピレーションを得た,対向多重武装バンディットアルゴリズムの新たなファミリーを導入する。
論文参考訳（メタデータ） (2023-10-01T03:41:04Z)
An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文参考訳（メタデータ） (2023-06-15T15:37:31Z)
Mean-based Best Arm Identification in Stochastic Bandits under Reward Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文参考訳（メタデータ） (2021-11-14T21:49:58Z)
Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文参考訳（メタデータ） (2021-07-09T16:04:24Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
An Empirical Process Approach to the Union Bound: Practical Algorithms for Combinatorial and Linear Bandits [34.06611065493047]
本稿では、信頼度と予算設定の固定化において、純探索線形帯域問題に対する近似アルゴリズムを提案する。サンプルの複雑性がインスタンスの幾何でスケールし、アームの数に縛られた明示的な結合を避けるアルゴリズムを提供する。また,固定予算設定における線形帯域幅に対する最初のアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-21T00:56:33Z)
Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文参考訳（メタデータ） (2020-06-15T02:57:57Z)
SONIA: A Symmetric Blockwise Truncated Optimization Algorithm [2.9923891863939938]
本研究は, 経験的リスクに対する新しいアルゴリズムを提案する。このアルゴリズムは、一部分空間における二階探索型更新を計算し、1階探索法と2階探索法の間のギャップを埋める。
論文参考訳（メタデータ） (2020-06-06T19:28:14Z)
Bandit algorithms to emulate human decision making using probabilistic distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文参考訳（メタデータ） (2016-11-30T17:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。