論文の概要: A Unified Model for the Two-stage Offline-then-Online Resource
Allocation
- arxiv url: http://arxiv.org/abs/2012.06845v1
- Date: Sat, 12 Dec 2020 15:55:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 05:14:26.528467
- Title: A Unified Model for the Two-stage Offline-then-Online Resource
Allocation
- Title(参考訳): 2段階オフラインオンラインリソース割り当てのための統一モデル
- Authors: Yifan Xu, Pan Xu, Jianping Pan and Jun Tao
- Abstract要約: オフラインとオンラインの両方のリソース割り当てをひとつのフレームワークに組み込む統一モデルを提案する。
パラメータ化線形プログラミング(LP)に基づくアルゴリズムを提案し,最適値から最大1/4$の定数係数を示す。
- 参考スコア(独自算出の注目度): 23.902171296146076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the popularity of the Internet, traditional offline resource allocation
has evolved into a new form, called online resource allocation. It features the
online arrivals of agents in the system and the real-time decision-making
requirement upon the arrival of each online agent. Both offline and online
resource allocation have wide applications in various real-world matching
markets ranging from ridesharing to crowdsourcing. There are some emerging
applications such as rebalancing in bike sharing and trip-vehicle dispatching
in ridesharing, which involve a two-stage resource allocation process. The
process consists of an offline phase and another sequential online phase, and
both phases compete for the same set of resources. In this paper, we propose a
unified model which incorporates both offline and online resource allocation
into a single framework. Our model assumes non-uniform and known arrival
distributions for online agents in the second online phase, which can be
learned from historical data. We propose a parameterized linear programming
(LP)-based algorithm, which is shown to be at most a constant factor of $1/4$
from the optimal. Experimental results on the real dataset show that our
LP-based approaches outperform the LP-agnostic heuristics in terms of
robustness and effectiveness.
- Abstract(参考訳): インターネットの普及に伴い、従来のオフラインリソースアロケーションは、オンラインリソースアロケーションと呼ばれる新しい形式へと進化してきた。
システム内のエージェントのオンライン到着と、各オンラインエージェントの到着時のリアルタイム意思決定要件が特徴である。
オフラインとオンラインの両方のリソース割り当ては、ライドシェアリングからクラウドソーシングまで、さまざまな現実世界のマッチング市場で広く応用されている。
自転車シェアリングにおける再バランスや、ライドシェアリングにおけるトリップカーのディスパッチといった、2段階のリソース割り当てプロセスを含む新興アプリケーションもある。
プロセスはオフラインフェーズとシーケンシャルなオンラインフェーズで構成され、両方のフェーズは同じリソースセットで競います。
本稿では,オフラインとオンラインの両方のリソース割り当てを一つのフレームワークに組み込む統一モデルを提案する。
本モデルでは,オンラインエージェントの非一様かつ既知の到着分布を,歴史的なデータから学ぶことができる第2のオンラインフェーズに想定する。
本稿では,パラメータ化線形プログラミング(LP)に基づくアルゴリズムを提案する。
実データを用いた実験結果から,我々のLPベースアプローチは,ロバスト性と有効性の観点からLP非依存的ヒューリスティックスより優れていることが示された。
関連論文リスト
- MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Deploying Offline Reinforcement Learning with Human Feedback [34.11507483049087]
強化学習は、現実世界のアプリケーションで意思決定タスクを約束している。
1つの実践的なフレームワークは、オフラインデータセットからパラメータ化されたポリシーモデルをトレーニングし、それらをオンライン環境にデプロイすることである。
このアプローチは、オフライントレーニングが完璧でない可能性があるため、危険なアクションを取る可能性のあるRLモデルのパフォーマンスが低下する可能性があるため、リスクが伴う可能性がある。
我々は、人間がRLモデルを監督し、オンラインデプロイメントフェーズで追加のフィードバックを提供する代替フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T12:13:16Z) - NeurIPS 2022 Competition: Driving SMARTS [60.948652154552136]
ドライビングSMARTSは、動的相互作用コンテキストにおける分散シフトに起因する問題に対処するために設計された定期的な競争である。
提案するコンペティションは,強化学習(RL)やオフライン学習など,方法論的に多様なソリューションをサポートする。
論文 参考訳(メタデータ) (2022-11-14T17:10:53Z) - No-Regret Learning in Two-Echelon Supply Chain with Unknown Demand
Distribution [48.27759561064771]
我々は[Cachon and Zipkin, 1999]で導入された2つのエケロンサプライチェーンモデルについて, 2つの異なる設定で検討する。
両設定の最適在庫決定に対する後悔と収束の両面において良好な保証を達成するアルゴリズムを設計する。
私たちのアルゴリズムは、オンライングラディエントDescentとOnline Newton Stepをベースとしています。
論文 参考訳(メタデータ) (2022-10-23T08:45:39Z) - The Best of Many Worlds: Dual Mirror Descent for Online Allocation
Problems [7.433931244705934]
本稿では,意思決定者に対して未知の入力モデルを用いて,各要求に対する報酬とリソース消費を生成するデータ駆動型設定について考察する。
様々な入力モデルにおいて,どの入力に直面するかを知ることなく,優れた性能が得られるアルゴリズムの一般クラスを設計する。
我々のアルゴリズムはラグランジアン双対空間で動作し、オンラインミラー降下を用いて更新される各リソースに対して双対乗算器を保持する。
論文 参考訳(メタデータ) (2020-11-18T18:39:17Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。