論文の概要: Sequential Fair Resource Allocation under a Markov Decision Process
Framework
- arxiv url: http://arxiv.org/abs/2301.03758v2
- Date: Fri, 16 Jun 2023 18:12:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 04:29:58.960690
- Title: Sequential Fair Resource Allocation under a Markov Decision Process
Framework
- Title(参考訳): マルコフ決定過程の枠組みに基づく逐次的公平資源配分
- Authors: Parisa Hassanzadeh, Eleonora Kreacic, Sihan Zeng, Yuchen Xiao, Sumitra
Ganesh
- Abstract要約: 限られた資源を有限の地平線上で到着する際の要求を明らかにするエージェントに割り当てることのシーケンシャルな意思決定問題について検討する。
我々は,地平線上での要求全体に対して公平なアロケーションを行う新しいアルゴリズムであるSAFFEを提案する。
SAFFEはより公平で効率的なアロケーションを実現し、密着度の高い設定で最適に近い性能を実現する。
- 参考スコア(独自算出の注目度): 9.440900386313213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the sequential decision-making problem of allocating a limited
resource to agents that reveal their stochastic demands on arrival over a
finite horizon. Our goal is to design fair allocation algorithms that exhaust
the available resource budget. This is challenging in sequential settings where
information on future demands is not available at the time of decision-making.
We formulate the problem as a discrete time Markov decision process (MDP). We
propose a new algorithm, SAFFE, that makes fair allocations with respect to the
entire demands revealed over the horizon by accounting for expected future
demands at each arrival time. The algorithm introduces regularization which
enables the prioritization of current revealed demands over future potential
demands depending on the uncertainty in agents' future demands. Using the MDP
formulation, we show that SAFFE optimizes allocations based on an upper bound
on the Nash Social Welfare fairness objective, and we bound its gap to
optimality with the use of concentration bounds on total future demands. Using
synthetic and real data, we compare the performance of SAFFE against existing
approaches and a reinforcement learning policy trained on the MDP. We show that
SAFFE leads to more fair and efficient allocations and achieves
close-to-optimal performance in settings with dense arrivals.
- Abstract(参考訳): 有限地平線上の到達に対する確率的要求を明らかにするエージェントに対して限られた資源を割り当てる逐次意思決定問題について検討する。
私たちの目標は、利用可能なリソース予算を浪費する公平な割り当てアルゴリズムを設計することです。
これは、意思決定時に将来の要求に関する情報が得られないシーケンシャルな設定では難しい。
この問題を離散時間マルコフ決定過程(MDP)として定式化する。
我々は,到着時に期待される将来の要求を考慮し,地平線上で明らかになった要求全体に対して公平にアロケーションを行う新しいアルゴリズムであるSAFFEを提案する。
このアルゴリズムは、エージェントの将来の要求の不確実性に応じて、将来の潜在的な要求に対する現在の明らかにされた要求の優先順位付けを可能にする正規化を導入する。
mdpの定式化を用いて,saffeはnash社会福祉フェアネス目標の上限に基づいて割り当てを最適化し,そのギャップを将来の総需要に対する濃度境界の使用による最適性に限定した。
合成データと実データを用いて,SAFFEの性能を既存のアプローチと比較し,MDPで訓練された強化学習政策と比較した。
SAFFEはより公平で効率的なアロケーションを実現し、密着度の高い設定で最適に近い性能を実現する。
関連論文リスト
- Best Arm Identification for Stochastic Rising Bandits [84.55453174601826]
SRB(Rising Bandits)は、選択される度に選択肢の期待される報酬が増加する、シーケンシャルな意思決定の問題をモデル化する。
本稿では,SRBの固定予算ベストアーム識別(BAI)問題に焦点をあてる。
R-UCBE と R-SR の2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-15T08:01:37Z) - Differentially Private Deep Q-Learning for Pattern Privacy Preservation
in MEC Offloading [76.0572817182483]
攻撃者は、エッジサーバ(ES)のキュー情報とユーザの使用パターンを推測するために、オフロードの決定を盗み取ることができる。
パターンプライバシ(PP)を維持しつつ,レイテンシ,ESのエネルギー消費,タスク削減率を両立させるオフロード戦略を提案する。
そこで我々はDP-DQOアルゴリズムを開発し,PP問題にノイズを注入することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T12:50:18Z) - Online Resource Allocation under Horizon Uncertainty [27.21119630468227]
収益管理やオンライン広告では、需要の変動やユーザートラフィックの激しさのためにリクエスト数が大きく変化する可能性がある。
本研究では,地平線不確実性に頑健なオンラインアルゴリズムを開発する。
特に、地平線の不確実性が大きくなるにつれて、我々の競争比は最適な成長速度(対数的要因まで)を達成する。
論文 参考訳(メタデータ) (2022-06-27T19:54:10Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Optimal Admission Control for Multiclass Queues with Time-Varying
Arrival Rates via State Abstraction [16.99621896314678]
我々は、意思決定者がランダムに到着したタスクを受け入れ、拒否する必要があるという、新しいキュー問題を考える。
目的は、処理されたタスクの総価格が有限の地平線上で最大になるように、どのタスクを受け入れるかを決定することである。
最適値関数は特定の構造を持ち、ハイブリッドMDPを正確に解くことができることを示す。
論文 参考訳(メタデータ) (2022-03-14T12:38:13Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Model-Free Reinforcement Learning for Optimal Control of MarkovDecision
Processes Under Signal Temporal Logic Specifications [7.842869080999489]
有限水平マルコフ決定過程に対する最適ポリシーを求めるためのモデルフリー強化学習アルゴリズムを提案する。
本稿では,不確実性および性能目標下での複雑なミッションにおけるロボット動作計画の文脈におけるアプローチの有効性について述べる。
論文 参考訳(メタデータ) (2021-09-27T22:44:55Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Regularized Online Allocation Problems: Fairness and Beyond [7.433931244705934]
本稿では, 総資源消費に作用する非線形正規化器を含む変種である, 語彙化オンライン割当問題を紹介する。
この問題では、要求は時間とともに繰り返し届き、各要求に対して、意思決定者は報酬を生成しリソースを消費するアクションを取る必要があります。
目的は、資源制約を受ける加算可分な報酬と非分離可正則化器の値とを同時に最大化することである。
論文 参考訳(メタデータ) (2020-07-01T14:24:58Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Reinforcement Learning of Risk-Constrained Policies in Markov Decision
Processes [5.081241420920605]
マルコフ決定プロセス(MDPs)は、確率的不確実性の存在下でのシーケンシャルな意思決定のためのデファクト・フレームワークである。
破滅的な結果が再帰する障害状態と相まって, 対価を割引したMDPについて検討する。
我々の主な貢献は、UDTのような探索とMDPとの学習的相互作用を組み合わせた効率的なリスク制約型プランニングアルゴリズムである。
論文 参考訳(メタデータ) (2020-02-27T13:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。