論文の概要: Multi-armed Bandit Algorithms on System-on-Chip: Go Frequentist or
Bayesian?
- arxiv url: http://arxiv.org/abs/2106.02855v1
- Date: Sat, 5 Jun 2021 10:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 05:32:32.668632
- Title: Multi-armed Bandit Algorithms on System-on-Chip: Go Frequentist or
Bayesian?
- Title(参考訳): System-on-Chipのマルチアームバンドアルゴリズム: Go FrequentistかBayesianか?
- Authors: S. V. Sai Santosh and Sumit J. Darak
- Abstract要約: Multi-armed Bandit (MAB)アルゴリズムは、複数の腕の中で最高の腕を識別する。
再構成可能でインテリジェントなMAB(RI-MAB)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-armed Bandit (MAB) algorithms identify the best arm among multiple arms
via exploration-exploitation trade-off without prior knowledge of arm
statistics. Their usefulness in wireless radio, IoT, and robotics demand
deployment on edge devices, and hence, a mapping on system-on-chip (SoC) is
desired. Theoretically, the Bayesian approach-based Thompson Sampling (TS)
algorithm offers better performance than the frequentist approach-based Upper
Confidence Bound (UCB) algorithm. However, TS is not synthesizable due to Beta
function. We address this problem by approximating it via a pseudo-random
number generator-based approach and efficiently realize the TS algorithm on
Zynq SoC. In practice, the type of arms distribution (e.g., Bernoulli,
Gaussian, etc.) is unknown and hence, a single algorithm may not be optimal. We
propose a reconfigurable and intelligent MAB (RI-MAB) framework. Here,
intelligence enables the identification of appropriate MAB algorithms for a
given environment, and reconfigurability allows on-the-fly switching between
algorithms on the SoC. This eliminates the need for parallel implementation of
algorithms resulting in huge savings in resources and power consumption. We
analyze the functional correctness, area, power, and execution time of the
proposed and existing architectures for various arm distributions, word-length,
and hardware-software co-design approaches. We demonstrate the superiority of
the RI-MAB over TS and UCB only architectures.
- Abstract(参考訳): マルチアームバンディット (mab) アルゴリズムは、事前のアーム統計を知らずに探索・探索トレードオフによって複数のアームの中で最良のアームを識別する。
無線無線,IoT,ロボティクスにおける彼らの有用性は,エッジデバイスへのデプロイメントを必要とするため,システムオンチップ(SoC)のマッピングが望まれる。
理論的には、ベイズアプローチに基づくトンプソンサンプリング(TS)アルゴリズムは、頻繁なアプローチに基づくアッパー信頼境界(UCB)アルゴリズムよりも優れたパフォーマンスを提供する。
しかし、TSはベータ関数のために合成できない。
疑似ランダム数生成法を用いて近似し,Zynq SoC上でのTSアルゴリズムを効率的に実現することにより,この問題に対処する。
実際には、武器の分布の種類(ベルヌーイ、ガウス語など)
未知であり、従って一つのアルゴリズムが最適でないかもしれない。
再構成可能でインテリジェントなMAB(RI-MAB)フレームワークを提案する。
ここでは、インテリジェンスにより、所定の環境に対して適切なMABアルゴリズムを識別でき、再構成可能性により、SoC上のアルゴリズムをオンザフライで切り替えることができる。
これにより、アルゴリズムの並列実装が不要になり、リソースと消費電力が大幅に削減される。
我々は,提案および既存アーキテクチャの機能的正当性,面積,パワー,実行時間を分析し,様々なアーム分布,単語長,ハードウェア・ソフトウェア共同設計手法を提案する。
TS と UCB のみのアーキテクチャよりも RI-MAB の方が優れていることを示す。
関連論文リスト
- GreedyML: A Parallel Algorithm for Maximizing Submodular Functions [2.9998889086656586]
分散メモリマルチプロセッサ上での単調部分モジュラ関数の最大化のための並列近似アルゴリズムについて述べる。
我々の研究は、データ要約、機械学習、グラフスカラー化といった分野における実践的な応用のために、大規模データセットのサブモジュラー最適化問題を解決する必要性によって動機付けられている。
論文 参考訳(メタデータ) (2024-03-15T14:19:09Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - A Fast Algorithm for PAC Combinatorial Pure Exploration [21.376800678915558]
我々は,高い報酬を得た集合や腕の発見に対処する,CPE( Combinatorial Pure Exploration)の問題を考える。
この問題に対する従来のアルゴリズムは非常に計算集約的であり、軽度に大きな問題であっても実用的ではない。
計算量的に軽量であり,数万のアームを持つ問題に容易に適用可能な新しいCPEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-08T09:52:56Z) - Reinforcement Learning for Finite-Horizon Restless Multi-Armed
Multi-Action Bandits [8.136957953239254]
本稿では、R(MA)2Bと呼ばれる複数の動作を持つ有限ホライゾンレス・マルチアームバンディット問題について検討する。
各アームの状態は、制御されたマルコフ決定プロセス(MDP)に従って進化し、アームを引く報酬は、対応するMDPの現在の状態と、取られたアクションの両方に依存する。
最適政策の発見は典型的には難解であるため,我々はOccupancy-Measured-Reward Index Policyと呼ぶ,計算に訴える指標ポリシーを提案する。
論文 参考訳(メタデータ) (2021-09-20T21:40:12Z) - Top-$k$ eXtreme Contextual Bandits with Arm Hierarchy [71.17938026619068]
我々は、腕の総数が膨大であることができるトップ$ k$極端な文脈的包帯問題を研究します。
まず,Inverse Gap Weighting戦略を用いて,非極端に実現可能な設定のアルゴリズムを提案する。
我々のアルゴリズムは、$O(ksqrt(A-k+1)T log (|mathcalF|T))$である。
論文 参考訳(メタデータ) (2021-02-15T19:10:52Z) - Joint Deep Reinforcement Learning and Unfolding: Beam Selection and
Precoding for mmWave Multiuser MIMO with Lens Arrays [54.43962058166702]
離散レンズアレイを用いたミリ波マルチユーザマルチインプット多重出力(MU-MIMO)システムに注目が集まっている。
本研究では、DLA を用いた mmWave MU-MIMO システムのビームプリコーディング行列の共同設計について検討する。
論文 参考訳(メタデータ) (2021-01-05T03:55:04Z) - Resource Allocation in Multi-armed Bandit Exploration: Overcoming
Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。
特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文 参考訳(メタデータ) (2020-10-31T18:19:29Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Model Selection in Contextual Stochastic Bandit Problems [51.94632035240787]
基本アルゴリズムを選択できるメタアルゴリズムを開発した。
基本アルゴリズムの1つが$O(sqrtT)$後悔している場合でも、一般的には$Omega(sqrtT)$後悔よりも良いものを得ることはできません。
論文 参考訳(メタデータ) (2020-03-03T18:46:34Z) - Intelligent and Reconfigurable Architecture for KL Divergence Based
Online Machine Learning Algorithm [0.0]
オンライン機械学習(OML)アルゴリズムは、トレーニングフェーズを一切必要とせず、未知の環境に直接デプロイすることができる。
オンライン機械学習(OML)アルゴリズムは、トレーニングフェーズを一切必要とせず、未知の環境に直接デプロイすることができる。
論文 参考訳(メタデータ) (2020-02-18T16:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。