Fugu-MT 論文翻訳(概要): Learning Algorithms for Minimizing Queue Length Regret

論文の概要: Learning Algorithms for Minimizing Queue Length Regret

arxiv url: http://arxiv.org/abs/2005.05206v2
Date: Thu, 14 May 2020 13:26:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-04 20:10:57.684277
Title: Learning Algorithms for Minimizing Queue Length Regret
Title（参考訳）: 待ち行列の最小化のための学習アルゴリズム
Authors: Thomas Stahlbuhk, Brooke Shrader and Eytan Modiano
Abstract要約: パケットはランダムに送信機のキューに到着し、受信機に送信されるのを待ちます。送信機の目的は、キュー内のパケット数を$T$のタイムスロットで最小化するために、最適なチャネルを素早く識別することである。順序の最適値O(1)$キュー長の後悔を得られるキュー長ベースのポリシーのセットが存在することを示す。
参考スコア（独自算出の注目度）: 5.8010446129208155
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider a system consisting of a single transmitter/receiver pair and $N$ channels over which they may communicate. Packets randomly arrive to the transmitter's queue and wait to be successfully sent to the receiver. The transmitter may attempt a frame transmission on one channel at a time, where each frame includes a packet if one is in the queue. For each channel, an attempted transmission is successful with an unknown probability. The transmitter's objective is to quickly identify the best channel to minimize the number of packets in the queue over $T$ time slots. To analyze system performance, we introduce queue length regret, which is the expected difference between the total queue length of a learning policy and a controller that knows the rates, a priori. One approach to designing a transmission policy would be to apply algorithms from the literature that solve the closely-related stochastic multi-armed bandit problem. These policies would focus on maximizing the number of successful frame transmissions over time. However, we show that these methods have $\Omega(\log{T})$ queue length regret. On the other hand, we show that there exists a set of queue-length based policies that can obtain order optimal $O(1)$ queue length regret. We use our theoretical analysis to devise heuristic methods that are shown to perform well in simulation.
Abstract（参考訳）: 我々は,単一送信/受信器ペアと通信可能なn$チャネルからなるシステムについて検討する。パケットはランダムに送信機のキューに到着し、受信機に送信されるのを待つ。送信機は、1つのチャネル上のフレーム送信を試みることができ、キューに1つあれば各フレームにパケットが含まれる。各チャネルに対して、試みられた送信は未知の確率で成功する。送信機の目標は、$t$のタイムスロット上のキュー内のパケット数を最小化する最善のチャネルを迅速に特定することである。システム性能を分析するために,学習方針の全キュー長と,そのレートを知っているコントローラ,すなわち優先順位との期待値の違いである待ち行列長の後悔を導入する。伝達ポリシーを設計する1つのアプローチは、密接に関連する確率的多腕バンディット問題を解決する文学のアルゴリズムを適用することである。これらのポリシーは、時間とともにフレーム転送の成功回数を最大化することに焦点を当てる。しかし、これらのメソッドは、$\Omega(\log{T})$ queue length regretを持つことを示す。一方で, 最適な$o(1)$ キュー長の後悔を得られるような, キュー長ベースのポリシー群が存在することを示す。シミュレーションでうまく機能することを示すヒューリスティックな手法を考案するために理論解析を用いる。

関連論文リスト

Queue Length Regret Bounds for Contextual Queueing Bandits [0.8984888893275712]
我々は、未知のサービスレートを同時に学習しながら、スケジューリングのための新しいコンテキスト対応フレームワークであるコンテキストキュー帯域を導入します。我々のアルゴリズムであるCQB-$varepsilon$は、$widetildemathcalO(T-1/4)$の残念な上限を達成する。また,2番目のアルゴリズムであるCQB-Optは,逆選択された文脈の設定も考慮し,その場合の残差上限は$mathcalO(log2 T)$である。
論文参考訳（メタデータ） (2026-01-27T07:40:23Z)
Minimizing Queue Length Regret for Arbitrarily Varying Channels [9.091372562683311]
任意に変化する無線チャネルをN$で備えた単一送受信機対のオンラインチャネルスケジューリング問題を考える。チャネルの送信速度は非定常的であり、不可避な敵によって制御される可能性がある。本稿では,この設定における待ち行列長の最小化のために,弱適応型マルチアーマッド帯域幅(MAB)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-23T10:54:22Z)
Age Optimal Sampling for Unreliable Channels under Unknown Channel Statistics [25.04993246830622]
本研究では,センサが受信機にステータスを転送するシステムについて検討し,受信機は信頼性の高いチャネルを介して送信結果をセンサに送信する。受信機におけるステータス情報のタイムラインを評価するために、Age of Informationのメトリクスを用いる。この問題を解決するためにRobins-Monroアルゴリズムを提案し、最適しきい値をほぼ確実に近似できることを実証する。
論文参考訳（メタデータ） (2024-12-24T03:06:22Z)
Queueing Matching Bandits with Preference Feedback [10.988222071035198]
我々は、一方のN$キューと他方のK$サーバからなるマルチクラス非対称キューシステムについて検討する。各ジョブサーバ割り当てのサービスレートは未知であり、機能ベースのMNL(Multi-nomial Logit)関数によってモデル化される。我々は,UCBとトンプソンサンプリングに基づくアルゴリズムを提案する。このアルゴリズムは,待ち時間の平均値が$O(minN,K/epsilon)$に制限されたシステム安定性を実現する。
論文参考訳（メタデータ） (2024-10-14T02:29:06Z)
Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文参考訳（メタデータ） (2024-05-09T17:40:09Z)
DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文参考訳（メタデータ） (2024-03-25T22:49:56Z)
Learning-based Scheduling for Information Accuracy and Freshness in Wireless Networks [0.0]
我々は、複数のソース、単一の通信チャネル、単一の監視ステーションからなるシステムを考える。正確な測定の確率と、全てのソースが正常に送信される確率は、スケジューラに未知である。
論文参考訳（メタデータ） (2023-10-24T10:31:34Z)
Revisiting Decentralized ProxSkip: Achieving Linear Speedup [50.28561300894826]
ProxSkipilonの既存の解析は限定凸設定であり、ProxSkipilonの強い線形速度を達成できない。本稿では, ProxSkipilon が線形スピードアップを実現し,通信の確率に比例した通信オーバーヘッドを低減することができることを示す。
論文参考訳（メタデータ） (2023-10-12T02:13:48Z)
Queue Scheduling with Adversarial Bandit Learning [20.606599586119835]
K$キューからなるワンホップ単一サーバキューシステムについて検討する。我々のスケジューリング手法は,逆帯域学習とリアプノフドリフト最小化の革新的な組み合わせに基づいている。ランダム化ポリシーのいくつかの(おそらく未知の)シーケンスで安定化可能なシステムを安定化できる2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-03T07:17:09Z)
Sequential Information Design: Learning to Persuade in the Dark [49.437419242582884]
本研究では,自己関心の受信者の行動に影響を及ぼそうとする情報発信者が直面する繰り返し情報設計問題について検討する。各ラウンドにおいて、送信者は、シーケンシャル意思決定(SDM)問題におけるランダムイベントの実現を観察する。これは、そのような情報をレシーバーに段階的に開示し、彼らが(望まれる)アクションレコメンデーションに従うように説得する方法の課題である。
論文参考訳（メタデータ） (2022-09-08T17:08:12Z)
Learning While Scheduling in Multi-Server Systems with Unknown Statistics: MaxWeight with Discounted UCB [18.898514227870926]
本稿では、複数のサーバと複数のタイプのジョブを持つマルチサーバシステムについて考察する。目標は、処理時間の統計を知ることなく、サーバ上のジョブをスケジュールすることだ。我々は,MaxWeightスケジューリングポリシと割引された高信頼度境界(UCB)を組み合わせることで,統計を同時に学習し,ジョブをサーバにスケジュールするアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-02T15:37:02Z)
A Simple and Provably Efficient Algorithm for Asynchronous Federated Contextual Linear Bandits [77.09836892653176]
我々は,M$エージェントが相互に協力して,中央サーバの助けを借りて,グローバルなコンテキスト線形バンドイット問題を解決するためのフェデレーション付きコンテキスト線形バンドイットについて検討した。すべてのエージェントが独立して動作し、ひとつのエージェントとサーバ間の通信が他のエージェントの通信をトリガーしない非同期設定を考える。 texttFedLinUCBの後悔は$tildeO(dsqrtsum_m=1M T_m)$で、通信の複雑さは$tildeO(dM)であることを示す。
論文参考訳（メタデータ） (2022-07-07T06:16:19Z)
Multi-Receiver Online Bayesian Persuasion [51.94795123103707]
本研究では,未知の逆選択型の受信者に対して,送信者が繰り返し対面するオンライン学習フレームワークについて検討する。オフラインモデルの慣習として、外部性やバイナリアクションのないケースに重点を置いています。本稿では,損失関数を有限個に制限したオンライン学習問題に対処する一般的なオンライン降下スキームを提案する。
論文参考訳（メタデータ） (2021-06-11T16:05:31Z)
Better than the Best: Gradient-based Improper Reinforcement Learning for Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文参考訳（メタデータ） (2021-05-01T10:18:34Z)
Aging Bandits: Regret Analysis and Order-Optimal Learning Algorithm for Wireless Networks with Stochastic Arrivals [24.897224064639406]
信頼できないチャネルに時間感知情報を送信するソースを持つシングルホップ無線ネットワークを検討する。学習アルゴリズムは1つのペア(ソース、チャネル)を選択し、選択されたソースは選択されたチャネルを介してパケットを送信しようとする。学習アルゴリズムの目的は、ネットワーク内の年齢情報(AoI)を$ T$のタイムスロットで最小化することです。
論文参考訳（メタデータ） (2020-12-16T00:58:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。