論文の概要: Online Resource Allocation: Bandits feedback and Advice on Time-varying
Demands
- arxiv url: http://arxiv.org/abs/2302.04182v2
- Date: Mon, 12 Jun 2023 10:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 01:23:25.066624
- Title: Online Resource Allocation: Bandits feedback and Advice on Time-varying
Demands
- Title(参考訳): オンラインリソース割り当て: 時間変動要求に対するフィードバックとアドバイスを包括する
- Authors: Lixing Lyu and Wang Chi Cheung
- Abstract要約: 我々は、帯域幅のフィードバックと時間変化の要求を伴う一般的なオンラインリソース割り当てモデルについて検討する。
最近のOnline Algorithms with Adviceフレームワークに触発され、オンラインアドバイスがポリシー設計にどのように役立つかを探る。
提案アルゴリズムは,文学における他のアルゴリズムと比較して,理論的性能と有望な数値結果の両方を有することを示した。
- 参考スコア(独自算出の注目度): 12.081877372552606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a general online resource allocation model with bandit feedback
and time-varying demands. While online resource allocation has been well
studied in the literature, most existing works make the strong assumption that
the demand arrival process is stationary. In practical applications, such as
online advertisement and revenue management, however, this process may be
exogenous and non-stationary, like the constantly changing internet traffic.
Motivated by the recent Online Algorithms with Advice framework [Mitazenmacher
and Vassilvitskii, \emph{Commun. ACM} 2022], we explore how online advice can
inform policy design. We establish an impossibility result that any algorithm
perform poorly in terms of regret without any advice in our setting. In
contrast, we design an robust online algorithm that leverages the online
predictions on the total demand volumes. Empowered with online advice, our
proposed algorithm is shown to have both theoretical performance and promising
numerical results compared with other algorithms in literature. We also provide
two explicit examples for the time-varying demand scenarios and derive
corresponding theoretical performance guarantees. Finally, we adapt our model
to a network revenue management problem, and numerically demonstrate that our
algorithm can still performs competitively compared to existing baselines.
- Abstract(参考訳): 我々は,包帯フィードバックと時間変動要求を伴う一般的なオンラインリソース割り当てモデルを検討する。
オンラインリソース割り当ては文献でよく研究されているが、既存の作品の多くは需要の到着プロセスが静止していると強く仮定している。
しかし、オンライン広告や収益管理のような実践的なアプリケーションでは、このプロセスはインターネットトラフィックが絶えず変化するように、外生的にも非定常的かもしれない。
最近の Online Algorithms with Advice framework [Mitazenmacher と Vassilvitskii, \emph{Commun] に触発された。
ACM} 2022] オンラインアドバイスが政策設計にどのように役立つかを探る。
我々は,どのアルゴリズムも,我々の設定において何の助言も受けずに,後悔の観点からは不十分な結果を生んでいる。
対照的に,総需要量のオンライン予測を活用できるロバストなオンラインアルゴリズムを設計した。
提案アルゴリズムは,オンラインアドバイスを応用し,理論的性能と有望な数値的結果の両方を文献上の他のアルゴリズムと比較した。
また,時間変動需要シナリオに対する2つの明示的な例を示し,それに対応する理論性能保証を導出する。
最後に、ネットワーク収益管理問題にモデルを適応させ、既存のベースラインと比較してアルゴリズムが競合的に動作可能であることを数値的に示す。
関連論文リスト
- Online-BLS: An Accurate and Efficient Online Broad Learning System for Data Stream Classification [52.251569042852815]
オンライン更新毎にクローズドフォームソリューションを備えたオンライン広範学習システムフレームワークを導入する。
我々は,効果的な重み推定アルゴリズムと効率的なオンライン更新戦略を設計する。
我々のフレームワークは、コンセプトドリフトを伴うデータストリームシナリオに自然に拡張され、最先端のベースラインを超えます。
論文 参考訳(メタデータ) (2025-01-28T13:21:59Z) - PageRank Bandits for Link Prediction [72.61386754332776]
リンク予測は、リコメンダシステムやナレッジグラフ補完といった幅広いアプリケーションを用いたグラフ学習において重要な問題である。
本稿では,リンク予測を逐次的意思決定プロセスとして再構成し,各リンク予測インタラクションを逐次的に行う。
本稿では,PageRankとコンテキスト的帯域を結合した新しい融合アルゴリズム PRB (PageRank Bandits) を提案する。
論文 参考訳(メタデータ) (2024-11-03T02:39:28Z) - Online Distributional Regression [0.0]
大規模ストリーミングデータは、現代の機械学習アプリケーションで一般的である。
サプライチェーン管理、気象学、気象学など多くの分野が確率論的予測を用いている。
本稿では,正規化線形分布モデルのオンライン推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:04:49Z) - Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - Online Optimization for Network Resource Allocation and Comparison with
Reinforcement Learning Techniques [0.6466206145151128]
本稿では、ジョブ転送におけるオンラインネットワークリソース割り当て問題に取り組む。
本稿では指数重み付け手法に基づくランダム化オンラインアルゴリズムを提案する。
提案アルゴリズムは,その経験からアルゴリズムが適応し,学習していることを示す。
論文 参考訳(メタデータ) (2023-11-16T17:08:27Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Online Caching with no Regret: Optimistic Learning via Recommendations [15.877673959068458]
ファイル要求の予測を含むFTRL(Follow-the-Regularized-Leader)フレームワークを構築した。
フレームワークを拡張して、多くが利用可能な場合に最適な要求予測器を学習し、利用します。
提案した楽観的な学習キャッシュポリシが,完全予測のためのサブゼロ性能損失(regret)を達成できることを実証する。
論文 参考訳(メタデータ) (2022-04-20T09:29:47Z) - Single-Leg Revenue Management with Advice [27.21119630468227]
我々は、アルゴリズムとアドバイスのフレームワークのレンズを通して、シングルレグの収益管理の問題に目を向ける。
すべてのアドバイスに対する一貫性(アドバイスが正確であればパフォーマンス)と競争性(アドバイスが不正確であればパフォーマンス)のトレードオフを特徴付ける。
また、シングルレッグ収益管理において最も広く展開されている技術である保護レベル政策のクラスについても検討する。
論文 参考訳(メタデータ) (2022-02-18T00:32:11Z) - An Online Learning Approach to Optimizing Time-Varying Costs of AoI [26.661352924641285]
通信ネットワーク上でのソースのタイムリーな監視を必要とするシステムについて検討する。
単一のソース監視問題に対して、後見の最良の固定ポリシーと比較して、サブ線形後悔を実現するアルゴリズムを設計する。
複数ソーススケジューリング問題に対して、Follow-the-Perturbed-Whittle-Leaderと呼ばれる新しいオンライン学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-05-27T18:10:56Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Optimal Robustness-Consistency Trade-offs for Learning-Augmented Online
Algorithms [85.97516436641533]
機械学習予測を取り入れたオンラインアルゴリズムの性能向上の課題について検討する。
目標は、一貫性と堅牢性の両方を備えたアルゴリズムを設計することだ。
機械学習予測を用いた競合解析のための非自明な下界の最初のセットを提供する。
論文 参考訳(メタデータ) (2020-10-22T04:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。