論文の概要: Learning-based Scheduling for Information Accuracy and Freshness in
Wireless Networks
- arxiv url: http://arxiv.org/abs/2310.15705v1
- Date: Tue, 24 Oct 2023 10:31:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 19:21:24.586877
- Title: Learning-based Scheduling for Information Accuracy and Freshness in
Wireless Networks
- Title(参考訳): 無線ネットワークにおける情報正確性と鮮度のための学習型スケジューリング
- Authors: Hitesh Gudwani
- Abstract要約: 我々は、複数のソース、単一の通信チャネル、単一の監視ステーションからなるシステムを考える。
正確な測定の確率と、全てのソースが正常に送信される確率は、スケジューラに未知である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a system of multiple sources, a single communication channel, and
a single monitoring station. Each source measures a time-varying quantity with
varying levels of accuracy and one of them sends its update to the monitoring
station via the channel. The probability of success of each attempted
communication is a function of the source scheduled for transmitting its
update. Both the probability of correct measurement and the probability of
successful transmission of all the sources are unknown to the scheduler. The
metric of interest is the reward received by the system which depends on the
accuracy of the last update received by the destination and the
Age-of-Information (AoI) of the system. We model our scheduling problem as a
variant of the multi-arm bandit problem with sources as different arms. We
compare the performance of all $4$ standard bandit policies, namely, ETC,
$\epsilon$-greedy, UCB, and TS suitably adjusted to our system model via
simulations. In addition, we provide analytical guarantees of $2$ of these
policies, ETC, and $\epsilon$-greedy. Finally, we characterize the lower bound
on the cumulative regret achievable by any policy.
- Abstract(参考訳): 我々は、複数のソース、単一の通信チャネル、単一の監視ステーションからなるシステムを考える。
各ソースは、精度の異なる時間変動量を測定し、そのうちの1つがチャネル経由で監視ステーションに更新を送信する。
それぞれの通信が成功する確率は、更新を送信するためにスケジュールされたソースの機能である。
正確な測定の確率と全てのソースの送信が成功する確率の両方がスケジューラに不明である。
利息の指標は、宛先が受信した最終更新の精度と、システムの年齢情報(AoI)に依存するシステムによって与えられる報酬である。
我々は,マルチアームバンディット問題の一変種としてスケジューリング問題をモデル化した。
ETC,$\epsilon$-greedy, UCB, TSといった4ドルの標準バンディットポリシのパフォーマンスをシミュレーションによって適切に調整したシステムモデルと比較する。
さらに、これらのポリシーの2ドルなどの分析的な保証と、$\epsilon$-greedyを提供します。
最後に、いかなる政策でも達成可能な累積的後悔に対する下限を特徴づける。
関連論文リスト
- Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - Learning a Discrete Set of Optimal Allocation Rules in a Queueing System
with Unknown Service Rate [1.4094389874355762]
入場率とサービス率の不明なシステムの入場制御について検討する。
私たちのモデルでは、ジョブが到着するたびに、ディスペンサーがジョブを利用可能なサーバに割り当てるか、ブロックするかを決めます。
我々の目標は、ディスパッチの長期平均報酬を最大化するディスパッチポリシーを設計することです。
論文 参考訳(メタデータ) (2022-02-04T22:39:03Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z) - Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian
Noise [59.47042225257565]
雑音分布の明示的な表現に依存しない新しい計画法を提案する。
まず、連続系を離散状態モデルに抽象化し、状態間の確率的遷移によってノイズを捕捉する。
いわゆる区間マルコフ決定過程(iMDP)の遷移確率区間におけるこれらの境界を捉える。
論文 参考訳(メタデータ) (2021-10-25T06:18:55Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Regret Analysis of Distributed Online LQR Control for Unknown LTI
Systems [8.832969171530056]
線形時間不変(LTI)系に対する分散オンライン線形2次レギュレータ(LQR)問題について研究する。
本稿では,各エージェントが探索段階でシステム推定を計算するオンラインlqrアルゴリズムの分散型を提案する。
我々は,提案アルゴリズムが$tildeO(T2/3)$をスケールしていることを証明する。
論文 参考訳(メタデータ) (2021-05-15T23:02:58Z) - A Reinforcement Learning Approach to Age of Information in Multi-User
Networks with HARQ [1.5469452301122177]
ソースノードから複数のユーザへのタイムセンシティブな情報の送信を,エラーが発生しやすい通信チャネル上でスケジューリングする。
リソースの長期平均制約はソースに課され、送信の平均数を制限します。
論文 参考訳(メタデータ) (2021-02-19T07:30:44Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - Distributed Bandits: Probabilistic Communication on $d$-regular Graphs [5.33024001730262]
我々は、$d$-regular graphで定義されたネットワーク上の確率と通信するエージェントに対して、分散マルチエージェントのマルチアームバンディット問題について検討する。
エージェントベースの手法がグループ後悔の最小化にどのように貢献するかを解析し、新しいアッパー信頼境界(UCB)に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T04:53:54Z) - Superiority of Simplicity: A Lightweight Model for Network Device
Workload Prediction [58.98112070128482]
本稿では,歴史観測に基づく時系列予測のための軽量な解を提案する。
ニューラルネットワークと平均予測器という2つのモデルからなる異種アンサンブル法で構成されている。
利用可能なFedCSIS 2020チャレンジデータセットの総合的なR2$スコア0.10を達成している。
論文 参考訳(メタデータ) (2020-07-07T15:44:16Z) - Learning Algorithms for Minimizing Queue Length Regret [5.8010446129208155]
パケットはランダムに送信機のキューに到着し、受信機に送信されるのを待ちます。
送信機の目的は、キュー内のパケット数を$T$のタイムスロットで最小化するために、最適なチャネルを素早く識別することである。
順序の最適値O(1)$キュー長の後悔を得られるキュー長ベースのポリシーのセットが存在することを示す。
論文 参考訳(メタデータ) (2020-05-11T15:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。