論文の概要: ICQ: A Quantization Scheme for Best-Arm Identification Over
Bit-Constrained Channels
- arxiv url: http://arxiv.org/abs/2305.00528v1
- Date: Sun, 30 Apr 2023 17:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 14:46:35.246808
- Title: ICQ: A Quantization Scheme for Best-Arm Identification Over
Bit-Constrained Channels
- Title(参考訳): ICQ:ビット制約チャネル上でのベストアーム同定のための量子化方式
- Authors: Fathima Zarin Faizal, Adway Girish, Manjesh Kumar Hanawal, Nikhil
Karamchandani
- Abstract要約: マルチアームバンディット設定の分散変種におけるベストアーム識別の問題について検討する。
Inflating Confidence for Quantization (ICQ) と呼ばれる新しい量子化手法を提案する。
- 参考スコア(独自算出の注目度): 9.173160301214805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of best-arm identification in a distributed variant of
the multi-armed bandit setting, with a central learner and multiple agents.
Each agent is associated with an arm of the bandit, generating stochastic
rewards following an unknown distribution. Further, each agent can communicate
the observed rewards with the learner over a bit-constrained channel. We
propose a novel quantization scheme called Inflating Confidence for
Quantization (ICQ) that can be applied to existing confidence-bound based
learning algorithms such as Successive Elimination. We analyze the performance
of ICQ applied to Successive Elimination and show that the overall algorithm,
named ICQ-SE, has the order-optimal sample complexity as that of the
(unquantized) SE algorithm. Moreover, it requires only an exponentially sparse
frequency of communication between the learner and the agents, thus requiring
considerably fewer bits than existing quantization schemes to successfully
identify the best arm. We validate the performance improvement offered by ICQ
with other quantization methods through numerical experiments.
- Abstract(参考訳): 本研究では,分散型多腕バンディットセットにおける最良腕識別の問題点について,中央学習器と複数のエージェントを用いて検討した。
各エージェントはバンディットの腕に関連付けられ、未知の分布に従って確率的な報酬を生成する。
さらに、各エージェントは、観測された報奨を、ビット制限されたチャネルを介して学習者と伝達することができる。
本稿では,逐次除去など既存の信頼度ベース学習アルゴリズムに適用可能な,インフレーション量子化信頼度(icq)と呼ばれる新しい量子化スキームを提案する。
逐次消去に適用されたICQの性能を解析し、ICQ-SEと呼ばれる全アルゴリズムが、(不等化)SEアルゴリズムと同じ順序-最適サンプル複雑性を有することを示す。
さらに、学習者とエージェント間の通信の指数的に少ない周波数しか必要としないため、最高の腕を識別するために既存の量子化方式よりもかなり少ないビットを必要とする。
数値実験により,ICQと他の量子化手法による性能改善を検証した。
関連論文リスト
- Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Decentralised Q-Learning for Multi-Agent Markov Decision Processes with
a Satisfiability Criterion [0.0]
マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。
目標は、各エージェントの時間平均コストを、指定されたエージェント固有のバウンド以下にすることである。
論文 参考訳(メタデータ) (2023-11-21T13:56:44Z) - High-rate discretely-modulated continuous-variable quantum key
distribution using quantum machine learning [4.236937886028215]
本稿では,量子機械学習技術を用いた離散変調連続可変量子鍵分布(DM CVQKD)の高速化手法を提案する。
低複雑さ量子k-アネレスト近傍(QkNN)は、ボブ側での離散変調コヒーレント状態(DMCS)の損失を予測するために設計されている。
シミュレーションにより,提案手法の秘密鍵レートは既存のDM CVQKDプロトコルよりも明らかに優れていることが示された。
論文 参考訳(メタデータ) (2023-08-07T04:00:13Z) - Q-SHED: Distributed Optimization at the Edge via Hessian Eigenvectors
Quantization [5.404315085380945]
ニュートン型(NT)法は、DO問題における堅牢な収束率の実現要因として提唱されている。
インクリメンタルなヘッセン固有ベクトル量子化に基づく新しいビット割り当て方式を特徴とする、DOのための元のNTアルゴリズムであるQ-SHEDを提案する。
Q-SHEDはコンバージェンスに必要な通信ラウンド数を最大60%削減できることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:15:03Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Quantization-aware Interval Bound Propagation for Training Certifiably
Robust Quantized Neural Networks [58.195261590442406]
我々は、逆向きに頑健な量子化ニューラルネットワーク(QNN)の訓練と証明の課題について検討する。
近年の研究では、浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱であることが示されている。
本稿では、堅牢なQNNをトレーニングするための新しい方法であるQA-IBP(quantization-aware interval bound propagation)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:32:38Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - An Efficient Algorithm for Cooperative Semi-Bandits [0.0]
本稿では,有名なFollow The Perturbed Leaderアルゴリズムの協調バージョンであるCoop-FTPLを紹介する。
T 時間ステップ後のアルゴリズムの期待された後悔は QT log(k)(k$alpha$ 1 /Q + m) であり、Q は総アクティベーション確率質量である。
論文 参考訳(メタデータ) (2020-10-05T07:08:26Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Task-Based Information Compression for Multi-Agent Communication
Problems with Channel Rate Constraints [28.727611928919725]
本稿では,情報圧縮アルゴリズム(SAIC)のステートアグリゲーションを導入し,定式化TBIC問題の解法を提案する。
その結果,SAICは割引報酬の総和でほぼ最適性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-28T18:29:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。