論文の概要: Aging Bandits: Regret Analysis and Order-Optimal Learning Algorithm for
Wireless Networks with Stochastic Arrivals
- arxiv url: http://arxiv.org/abs/2012.08682v2
- Date: Mon, 21 Dec 2020 20:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 03:01:57.259947
- Title: Aging Bandits: Regret Analysis and Order-Optimal Learning Algorithm for
Wireless Networks with Stochastic Arrivals
- Title(参考訳): 高齢化帯域:確率条件付き無線ネットワークにおけるレギュレット解析と順序最適学習アルゴリズム
- Authors: Eray Unsal Atay, Igor Kadota and Eytan Modiano
- Abstract要約: 信頼できないチャネルに時間感知情報を送信するソースを持つシングルホップ無線ネットワークを検討する。
学習アルゴリズムは1つのペア(ソース、チャネル)を選択し、選択されたソースは選択されたチャネルを介してパケットを送信しようとする。
学習アルゴリズムの目的は、ネットワーク内の年齢情報(AoI)を$ T$のタイムスロットで最小化することです。
- 参考スコア(独自算出の注目度): 24.897224064639406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a single-hop wireless network with sources transmitting
time-sensitive information to the destination over multiple unreliable
channels. Packets from each source are generated according to a stochastic
process with known statistics and the state of each wireless channel (ON/OFF)
varies according to a stochastic process with unknown statistics. The
reliability of the wireless channels is to be learned through observation. At
every time slot, the learning algorithm selects a single pair (source, channel)
and the selected source attempts to transmit its packet via the selected
channel. The probability of a successful transmission to the destination
depends on the reliability of the selected channel. The goal of the learning
algorithm is to minimize the Age-of-Information (AoI) in the network over $T$
time slots. To analyze the performance of the learning algorithm, we introduce
the notion of AoI regret, which is the difference between the expected
cumulative AoI of the learning algorithm under consideration and the expected
cumulative AoI of a genie algorithm that knows the reliability of the channels
a priori. The AoI regret captures the penalty incurred by having to learn the
statistics of the channels over the $T$ time slots. The results are two-fold:
first, we consider learning algorithms that employ well-known solutions to the
stochastic multi-armed bandit problem (such as $\epsilon$-Greedy, Upper
Confidence Bound, and Thompson Sampling) and show that their AoI regret scales
as $\Theta(\log T)$; second, we develop a novel learning algorithm and show
that it has $O(1)$ regret. To the best of our knowledge, this is the first
learning algorithm with bounded AoI regret.
- Abstract(参考訳): 我々は、複数の信頼できないチャンネル上で、送信元が目的地にタイムセンシティブな情報を伝達するシングルホップ無線ネットワークを考える。
各ソースからのパケットは、既知の統計の確率過程に従って生成され、各無線チャネルの状態(ON/OFF)は、未知の統計の確率過程によって変化する。
無線チャネルの信頼性は観測を通して学ぶ必要がある。
学習アルゴリズムは1つのペア(ソース、チャネル)を選択し、選択されたソースは選択されたチャネルを介してパケットを送信しようとする。
送信先への送信成功の確率は、選択されたチャネルの信頼性に依存する。
学習アルゴリズムの目標は、ネットワークのaoi( age-of-information)を$t$のタイムスロットで最小化することである。
学習アルゴリズムの性能を分析するために,学習アルゴリズムの期待累積aoiと,先行するチャネルの信頼性を知っているgenieアルゴリズムの期待累積aoiとの差であるaoi regretの概念を導入する。
aoi regretは、t$タイムスロット上でチャネルの統計を学習することによって発生するペナルティをキャプチャする。
まず、確率的多重武装バンディット問題(例えば、$\epsilon$-Greedy、Upper Confidence Bound、Thompson Sampling)によく知られた解を用いる学習アルゴリズムを検討し、彼らのAoIが後悔して$\Theta(\log T)$にスケールしたことを示す。
私たちの知る限りでは、これはAoI境界を持つ最初の学習アルゴリズムです。
関連論文リスト
- Revisiting Random Channel Pruning for Neural Network Compression [159.99002793644163]
チャネル(または3Dフィルタ)プルーニングは、ニューラルネットワークの推論を加速する有効な方法である。
本稿では,ランダムな探索により,プルーンドモデルのチャネル構成を決定することを試みる。
この単純な戦略は、他のチャネルプルーニング手法と比較して非常にうまく機能することを示す。
論文 参考訳(メタデータ) (2022-05-11T17:59:04Z) - Improving the Diversity of Bootstrapped DQN via Noisy Priors [10.299850596045395]
Bootstrapped Deep Q-Learning Networkは、最もよく知られている強化学習アルゴリズムの1つである。
本稿では,ガウス分布からのノイズやサンプルの先行値として先行情報を扱える可能性について検討し,そのアルゴリズムにさらなる多様性を導入する。
その結果,Bootstrapped Deep Q-Learningアルゴリズムの修正により,異なる種類のAtariゲームに対する評価スコアが大幅に向上した。
論文 参考訳(メタデータ) (2022-03-02T10:28:14Z) - Differentially Private Federated Learning via Inexact ADMM with Multiple
Local Updates [0.0]
我々は,複数の局所的な更新を施した乗算器アルゴリズムのDP不正確な交互方向法を開発した。
当社のアルゴリズムでは,各イテレーション毎に$barepsilon$-DPを提供しており,$barepsilon$はユーザが管理するプライバシ予算である。
提案アルゴリズムは,既存のDPアルゴリズムと比較してテストエラーを少なくとも31%削減すると同時に,データプライバシのレベルが同じであることを実証する。
論文 参考訳(メタデータ) (2022-02-18T19:58:47Z) - Efficiently Learning Any One Hidden Layer ReLU Network From Queries [27.428198343906352]
ネットワークへのブラックボックスアクセスを提供するニューラルネットワークアクティベーションを任意の1つの隠蔽層で学習するアルゴリズムを初めて提供する。
最悪のネットワークであっても、完全時間で効率を保証できるのはこれが初めてです。
論文 参考訳(メタデータ) (2021-11-08T18:59:40Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Differentially Private Federated Learning via Inexact ADMM [0.0]
差分プライバシー(DP)技術は、データプライバシを推論攻撃から保護するために、フェデレーション付き学習モデルに適用することができる。
我々は,信頼領域のサブプロブレム列を解く乗算器アルゴリズムのDP不正確な交互方向法を開発した。
提案アルゴリズムは,既存のDPアルゴリズムと比較してテストエラーを少なくとも22%削減すると同時に,データプライバシのレベルも同等に向上する。
論文 参考訳(メタデータ) (2021-06-11T02:28:07Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。