論文の概要: An Online Learning Approach to Optimizing Time-Varying Costs of AoI
- arxiv url: http://arxiv.org/abs/2105.13383v1
- Date: Thu, 27 May 2021 18:10:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:24:19.622529
- Title: An Online Learning Approach to Optimizing Time-Varying Costs of AoI
- Title(参考訳): AoIの時間変化コスト最適化のためのオンライン学習手法
- Authors: Vishrant Tripathi, Eytan Modiano
- Abstract要約: 通信ネットワーク上でのソースのタイムリーな監視を必要とするシステムについて検討する。
単一のソース監視問題に対して、後見の最良の固定ポリシーと比較して、サブ線形後悔を実現するアルゴリズムを設計する。
複数ソーススケジューリング問題に対して、Follow-the-Perturbed-Whittle-Leaderと呼ばれる新しいオンライン学習アルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 26.661352924641285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider systems that require timely monitoring of sources over a
communication network, where the cost of delayed information is unknown,
time-varying and possibly adversarial. For the single source monitoring
problem, we design algorithms that achieve sublinear regret compared to the
best fixed policy in hindsight. For the multiple source scheduling problem, we
design a new online learning algorithm called
Follow-the-Perturbed-Whittle-Leader and show that it has low regret compared to
the best fixed scheduling policy in hindsight, while remaining computationally
feasible. The algorithm and its regret analysis are novel and of independent
interest to the study of online restless multi-armed bandit problems. We
further design algorithms that achieve sublinear regret compared to the best
dynamic policy when the environment is slowly varying. Finally, we apply our
algorithms to a mobility tracking problem. We consider non-stationary and
adversarial mobility models and illustrate the performance benefit of using our
online learning algorithms compared to an oblivious scheduling policy.
- Abstract(参考訳): 遅延情報のコストが未知で、時間的変化があり、おそらくは敵対的な通信ネットワーク上のソースのタイムリーな監視を必要とするシステムを考える。
単一のソース監視問題に対して、後見の最良の固定ポリシーと比較して、サブ線形後悔を実現するアルゴリズムを設計する。
複数ソーススケジューリング問題に対して、Follow-the-Perturbed-Whittle-Leaderと呼ばれる新しいオンライン学習アルゴリズムを設計し、計算可能でありながら、後見の最良の固定スケジューリングポリシーに比べて後悔の少ないことを示す。
このアルゴリズムとその後悔の分析は新規であり、オンラインのレストレスマルチアームバンディット問題の研究には独立した関心がある。
環境の変化が緩やかに変化するときの最良の動的ポリシーと比較して、サブ線形後悔を実現するアルゴリズムをさらに設計する。
最後に、我々のアルゴリズムを移動追跡問題に適用する。
我々は,非定常モビリティモデルと敵対的モビリティモデルについて考察し,オンライン学習アルゴリズムの利用による性能上のメリットを,厳密なスケジューリングポリシーと比較した。
関連論文リスト
- Exponentially Weighted Algorithm for Online Network Resource Allocation with Long-Term Constraints [0.6466206145151128]
本稿では,ジョブ転送を伴う通信ネットワークにおける最適資源予約問題について検討する。
本稿では,長期制約を含むランダム化指数重み付け法に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-03T10:12:40Z) - Efficient Online Learning with Memory via Frank-Wolfe Optimization:
Algorithms with Bounded Dynamic Regret and Applications to Control [15.588080817106563]
動的後悔を最小限に抑えるメモリ付きプロジェクションフリーなメタベース学習アルゴリズムを提案する。
私たちは、自律的なエージェントが時間によって変化する環境に適応する必要がある人工知能アプリケーションによって動機付けられています。
論文 参考訳(メタデータ) (2023-01-02T01:12:29Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Learning to Control under Time-Varying Environment [18.48729114775298]
本稿では,線形時間変化(LTV)力学系における後悔の問題について検討する。
提案するオンラインアルゴリズムは, 計算に難易度を保証した最初のオンラインアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-06T11:40:46Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Unsupervised Deep Learning for Optimizing Wireless Systems with
Instantaneous and Statistic Constraints [29.823814915538463]
我々は、教師なしのディープラーニングを用いて、瞬時的制約と統計的制約の両方で、双方の問題を解決する統一的な枠組みを確立する。
教師なし学習は、最適政策の違反確率と近似精度の観点から教師あり学習より優れていることを示す。
論文 参考訳(メタデータ) (2020-05-30T13:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。