論文の概要: Auction-Based Scheduling
- arxiv url: http://arxiv.org/abs/2310.11798v2
- Date: Wed, 31 Jan 2024 19:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 19:01:52.305063
- Title: Auction-Based Scheduling
- Title(参考訳): オークションに基づくスケジューリング
- Authors: Guy Avni, Kaushik Mallik, Suman Sadhukhan
- Abstract要約: オークションベースのスケジューリングは、多目的意思決定問題のためのモジュラーフレームワークである。
それぞれの目的は別々のポリシーを使用して達成され、ポリシーは独立して作成、変更、置換が可能である。
我々は,2つのポリシー,当初割り当てられた予算,入札戦略を合成する分散アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.3326951882644553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many sequential decision-making tasks require satisfaction of multiple,
partially contradictory objectives. Existing approaches are monolithic, namely
all objectives are fulfilled using a single policy, which is a function that
selects a sequence of actions. We present auction-based scheduling, a modular
framework for multi-objective decision-making problems. Each objective is
fulfilled using a separate policy, and the policies can be independently
created, modified, and replaced. Understandably, different policies with
conflicting goals may choose conflicting actions at a given time. In order to
resolve conflicts, and compose policies, we employ a novel auction-based
mechanism. We allocate a bounded budget to each policy, and at each step, the
policies simultaneously bid from their available budgets for the privilege of
being scheduled and choosing an action. Policies express their scheduling
urgency using their bids and the bounded budgets ensure long-run scheduling
fairness. We lay the foundations of auction-based scheduling using path
planning problems on finite graphs with two temporal objectives. We present
decentralized algorithms to synthesize a pair of policies, their initially
allocated budgets, and bidding strategies. We consider three categories of
decentralized synthesis problems, parameterized by the assumptions that the
policies make on each other: (a) strong synthesis, with no assumptions and
strongest guarantees, (b) assume-admissible synthesis, with weakest rationality
assumptions, and (c) assume-guarantee synthesis, with explicit contract-based
assumptions. For reachability objectives, we show that, surprisingly,
decentralized assume-admissible synthesis is always possible when the
out-degrees of all vertices are at most two.
- Abstract(参考訳): 多くのシーケンシャルな意思決定タスクは、複数の部分的に矛盾する目的の満足度を必要とする。
既存のアプローチはモノリシックで、すなわち、アクションのシーケンスを選択する関数である単一のポリシを使用して、すべての目的を達成している。
本稿では,多目的意思決定問題に対するモジュラーフレームワークであるオークションベースのスケジューリングを提案する。
それぞれの目的は別々のポリシーを使用して達成され、ポリシーは独立して作成、変更、置換が可能である。
当然のことながら、相反する目標を持つ異なる政策は、同時に相反する行動を選択することがある。
紛争を解決し、政策を構成するために、我々は新しいオークションベースのメカニズムを採用する。
我々は、各政策に制限付き予算を割り当て、各段階において、スケジュールされ、行動を選択する特権のために、利用可能な予算から同時に政策を入札する。
ポリシーは入札と境界予算を使ってスケジュールの緊急性を表現し、長期のスケジュールの公平性を保証する。
2つの時間目標を持つ有限グラフ上の経路計画問題を用いたオークションベースのスケジューリングの基礎を提示する。
我々は,2つのポリシー,当初割り当てられた予算,入札戦略を合成する分散アルゴリズムを提案する。
我々は、政策が相互に行う仮定によってパラメータ化される分散合成問題の3つのカテゴリを考察する。
(a)強い合成、仮定なし、強い保証なし。
(b)最弱理性仮定による前提許容合成、及び
(c) 明示的な契約に基づく仮定を伴う前提保証合成。
到達可能性の目的に対して、すべての頂点の外度が少なくとも2つであるとき、驚くほど、非集中的な仮定許容合成が常に可能であることを示す。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Goal-conditioned Offline Reinforcement Learning through State Space Partitioning [9.38848713730931]
オフライン強化学習(RL)は、オフラインデータセットのみを使用してシーケンシャルな決定ポリシーを推論することを目的としている。
我々は,その利点にもかかわらず,分散シフトやマルチモダリティ問題を完全に解決するには,このアプローチは依然として不十分である,と論じる。
本稿では,帰納的バイアスの新たな源となる相補的優位性に基づく重み付け手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T14:52:53Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Anytime Stochastic Task and Motion Policies [12.72186877599064]
本稿では,タスクと動作計画を統合するための新しい手法を提案する。
我々のアルゴリズムは確率論的に完全であり、いつでも実現可能な解ポリシーを計算できる。
論文 参考訳(メタデータ) (2021-08-28T00:23:39Z) - Composable Energy Policies for Reactive Motion Generation and
Reinforcement Learning [25.498555742173323]
モジュラーモーション生成のための新しいフレームワークであるComposable Energy Policies(CEP)を紹介します。
CEPは、一連のリアクティブポリシーの製品に対する最適化によってコントロールアクションを計算する。
CEPは自然に強化学習の問題に適応し、階層的な方法で、以前はどんな分布でも統合できるようにします。
論文 参考訳(メタデータ) (2021-05-11T11:59:13Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。