論文の概要: Group-Fair Online Allocation in Continuous Time
- arxiv url: http://arxiv.org/abs/2006.06852v2
- Date: Thu, 23 Jul 2020 19:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 12:47:58.301483
- Title: Group-Fair Online Allocation in Continuous Time
- Title(参考訳): 連続時間におけるグループフェアオンラインアロケーション
- Authors: Semih Cayci, Swati Gupta, Atilla Eryilmaz
- Abstract要約: 公平性を考慮した継続的オンライン学習問題を考察する。
この定式化は、報酬最大化、最大値フェア、比例値アロケーションルールを回復させる。
本稿では,時間平均に対する二段階最適化に基づく新しいオンライン学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 27.32936573198251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The theory of discrete-time online learning has been successfully applied in
many problems that involve sequential decision-making under uncertainty.
However, in many applications including contractual hiring in online
freelancing platforms and server allocation in cloud computing systems, the
outcome of each action is observed only after a random and action-dependent
time. Furthermore, as a consequence of certain ethical and economic concerns,
the controller may impose deadlines on the completion of each task, and require
fairness across different groups in the allocation of total time budget $B$. In
order to address these applications, we consider continuous-time online
learning problem with fairness considerations, and present a novel framework
based on continuous-time utility maximization. We show that this formulation
recovers reward-maximizing, max-min fair and proportionally fair allocation
rules across different groups as special cases. We characterize the optimal
offline policy, which allocates the total time between different actions in an
optimally fair way (as defined by the utility function), and impose deadlines
to maximize time-efficiency. In the absence of any statistical knowledge, we
propose a novel online learning algorithm based on dual ascent optimization for
time averages, and prove that it achieves $\tilde{O}(B^{-1/2})$ regret bound.
- Abstract(参考訳): 離散時間オンライン学習の理論は、不確実性の下でのシーケンシャルな意思決定を含む多くの問題にうまく適用されてきた。
しかし、オンラインフリーランシングプラットフォームでの契約採用やクラウドコンピューティングシステムにおけるサーバ割り当てを含む多くのアプリケーションにおいて、各アクションの結果はランダムかつアクション依存時間後にのみ観察される。
さらに、一定の倫理的・経済的懸念の結果として、監督官は各タスクの完了に期限を課し、合計時間予算$b$の配分において、異なるグループ間で公平さを要求できる。
これらのアプリケーションに対処するために,公平性を考慮した連続時間オンライン学習問題を考察し,連続時間ユーティリティ最大化に基づく新しい枠組みを提案する。
この定式化は, 報酬最大化, 最大ミニフェア, 比例公平配分ルールを, 異なるグループ間で特別に再現することを示す。
動作間の合計時間を最適に公平に割り当て(ユーティリティ関数で定義されるように)、時間効率を最大化するために期限を課す最適オフラインポリシーを特徴付ける。
統計的知識が存在しない場合,時間平均の2値上昇最適化に基づく新しいオンライン学習アルゴリズムを提案し,$\tilde{o}(b^{-1/2})$ regretbound を達成することを証明した。
関連論文リスト
- Adversarial Network Optimization under Bandit Feedback: Maximizing Utility in Non-Stationary Multi-Hop Networks [35.78834550608041]
古典的なSNOアルゴリズムでは、ネットワーク条件は時間とともに定常である必要がある。
これらの問題に触発され、我々は帯域幅のフィードバックの下でAdversarial Network Optimization (ANO) を検討する。
提案するUMO2アルゴリズムは,ネットワークの安定性を保証し,また,「微妙に変化する」参照ポリシーの実用性に適合する。
論文 参考訳(メタデータ) (2024-08-29T02:18:28Z) - Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
後悔は$Thetaleft(mfrac12cdotfrac11-2-Tright)$で半直線的に成長するので、指数関数的に$Theta(sqrtm)$に収束する。
これらの調査結果は、限定的なオンライン学習と最適化の利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-20T23:00:25Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Learning to Schedule Online Tasks with Bandit Feedback [7.671139712158846]
オンラインタスクスケジューリングは、クラウドコンピューティングやクラウドソーシングにおけるタスク集約型アプリケーションにおいて重要な役割を果たす。
本稿では,二重最適化学習に基づくRobins-Monro(DOL-RM)アルゴリズムを提案する。
DOL-RMは、報酬対コスト比の楽観的な推定と決定モジュールを組み込んだ学習モジュールを統合する。
論文 参考訳(メタデータ) (2024-02-26T10:11:28Z) - Long-term Fairness For Real-time Decision Making: A Constrained Online
Optimization Approach [14.098628848491146]
本稿では,時間変動公正性制約を特徴とする動的意思決定システムにおける長期公正性の確保のための枠組みを提案する。
LoTFairと呼ばれる新しいオンラインアルゴリズムが提示され、"オンザフライ"という問題を解決する。
論文 参考訳(メタデータ) (2024-01-04T21:55:50Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Optimal Admission Control for Multiclass Queues with Time-Varying
Arrival Rates via State Abstraction [16.99621896314678]
我々は、意思決定者がランダムに到着したタスクを受け入れ、拒否する必要があるという、新しいキュー問題を考える。
目的は、処理されたタスクの総価格が有限の地平線上で最大になるように、どのタスクを受け入れるかを決定することである。
最適値関数は特定の構造を持ち、ハイブリッドMDPを正確に解くことができることを示す。
論文 参考訳(メタデータ) (2022-03-14T12:38:13Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Regularized Online Allocation Problems: Fairness and Beyond [7.433931244705934]
本稿では, 総資源消費に作用する非線形正規化器を含む変種である, 語彙化オンライン割当問題を紹介する。
この問題では、要求は時間とともに繰り返し届き、各要求に対して、意思決定者は報酬を生成しリソースを消費するアクションを取る必要があります。
目的は、資源制約を受ける加算可分な報酬と非分離可正則化器の値とを同時に最大化することである。
論文 参考訳(メタデータ) (2020-07-01T14:24:58Z) - Toward Optimal Adversarial Policies in the Multiplicative Learning
System with a Malicious Expert [87.12201611818698]
専門家のアドバイスを組み合わせて真の結果を予測する学習システムについて考察する。
専門家の一人が悪意があり、システムに最大損失を課すことを目指していると推測されている。
誤予測を常に報告する単純な欲求ポリシーは、近似比が1+O(sqrtfracln NN)$で最適であることを示す。
悪意のある専門家がその判断を適応的に行うことができるオンライン環境では、最適のオンラインポリシーを$O(N3)$で動的プログラムを解くことで効率的に計算できることが示される。
論文 参考訳(メタデータ) (2020-01-02T18:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。