論文の概要: Fast online inference for nonlinear contextual bandit based on
Generative Adversarial Network
- arxiv url: http://arxiv.org/abs/2202.08867v1
- Date: Thu, 17 Feb 2022 19:11:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 14:25:58.464295
- Title: Fast online inference for nonlinear contextual bandit based on
Generative Adversarial Network
- Title(参考訳): Generative Adversarial Networkに基づく非線形文脈帯域の高速オンライン推論
- Authors: Yun Da Tsai, Shou De Lin
- Abstract要約: 本稿では,エンドツーエンドのトレーニングプロセスを備えたニューラルバンディットモデルを提案し,推論中に効率よくバンディットアルゴリズムを実行する。
我々は現在最先端の時間複雑性を$O(log n)$に推し進め、ベイズ近似、ニューラルランダム特徴マッピング、近似大域最大化、近似近接探索を行う。
- 参考スコア(独自算出の注目度): 9.537503617354476
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This work addresses the efficiency concern on inferring a nonlinear
contextual bandit when the number of arms $n$ is very large. We propose a
neural bandit model with an end-to-end training process to efficiently perform
bandit algorithms such as Thompson Sampling and UCB during inference. We
advance state-of-the-art time complexity to $O(\log n)$ with approximate
Bayesian inference, neural random feature mapping, approximate global maxima
and approximate nearest neighbor search. We further propose a generative
adversarial network to shift the bottleneck of maximizing the objective for
selecting optimal arms from inference time to training time, enjoying
significant speedup with additional advantage of enabling batch and parallel
processing. %The generative model can inference an approximate argmax of the
posterior sampling in logarithmic time complexity with the help of approximate
nearest neighbor search. Extensive experiments on classification and
recommendation tasks demonstrate order-of-magnitude improvement in inference
time no significant degradation on the performance.
- Abstract(参考訳): この研究は、腕数$n$が非常に大きいとき、非線形文脈バンドイットを推測する効率上の懸念に対処する。
本稿では,トンプソンサンプリングや UCB などの帯域幅アルゴリズムを効率よく実行するための,エンドツーエンドのトレーニングプロセスを備えたニューラルバンディットモデルを提案する。
我々は現在最先端の時間複雑性を$O(\log n)$に推し進め、ベイズ近似、ニューラルランダム特徴マッピング、近似大域最大化、近似近接探索を行う。
さらに,予測時間からトレーニング時間までの最適なアーム選択の目標を最大化し,バッチ処理と並列処理のメリットを付加した大幅な高速化を享受する,生成的対向ネットワークを提案する。
% 生成モデルでは, 近似近傍探索の助けを借りて, 対数時間における後方サンプリングの近似argmaxを推定できる。
分類とレコメンデーションタスクに関する広範囲な実験は、推論時間における桁違いな改善を示し、性能に有意な低下はない。
関連論文リスト
- A Gaussian Process-based Streaming Algorithm for Prediction of Time Series With Regimes and Outliers [0.0]
最近提案されたINTELアルゴリズムは,システムスイッチングの可能な時系列のオンライン予測に専門家によるアプローチの産物を提供する。
LINTELを紹介します。これは、一定時間更新を伴う時間$t$の正確なフィルタリング分布を使用します。
提案手法は,適切な条件下でのINELよりも5倍以上高速で,良好な品質予測が可能であることを示す。
論文 参考訳(メタデータ) (2024-06-01T22:55:33Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Making RL with Preference-based Feedback Efficient via Randomization [11.019088464664696]
人間のフィードバックから学習する強化学習アルゴリズムは、統計複雑性、計算複雑性、クエリ複雑性の点で効率的である必要がある。
提案するアルゴリズムは, サンプル効率のよいアルゴリズム(すなわち, ほぼ最適ケースの後悔境界)と実行時間(すなわち, 関連するパラメータに関して計算複雑性が最悪の場合)を提案する。
結果をより一般的な非線形関数近似に拡張するために、トンプソンサンプリングのアイデアに触発されたモデルベースランダム化アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-10-23T04:19:35Z) - Nearest Neighbour with Bandit Feedback [4.9094025705644695]
我々のアルゴリズムは、データ生成プロセスに関する仮定が全くなされていない完全に逆向きな設定を処理します。
ユークリッド空間におけるバンドイト問題に適用した場合,アルゴリズムに対する一般的な後悔と解析を行う。
論文 参考訳(メタデータ) (2023-06-23T20:09:01Z) - An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Learning Contextual Bandits Through Perturbed Rewards [107.6210145983805]
標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。
明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
論文 参考訳(メタデータ) (2022-01-24T19:10:22Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Distributed Adaptive Nearest Neighbor Classifier: Algorithm and Theory [6.696267547013535]
そこで本研究では,データ駆動基準によりパラメータ選択された,近接する隣人の数がパラメータとなる分散適応型NN分類器を提案する。
有限標本性能を向上する最適チューニングパラメータを探索する際,早期停止規則を提案する。
特に、サブサンプルサイズが十分に大きい場合、提案した分類器がほぼ最適な収束率を達成することを示す。
論文 参考訳(メタデータ) (2021-05-20T14:38:41Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z) - AIN: Fast and Accurate Sequence Labeling with Approximate Inference
Network [75.44925576268052]
線形鎖条件ランダム場(CRF)モデルは最も広く使われているニューラルネットワークラベリング手法の1つである。
厳密な確率的推論アルゴリズムは典型的にはCRFモデルの訓練と予測段階に適用される。
CRFモデルに対して並列化可能な近似変分推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-17T12:18:43Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。