論文の概要: Autoregressive Policy Optimization for Constrained Allocation Tasks
- arxiv url: http://arxiv.org/abs/2409.18735v1
- Date: Fri, 27 Sep 2024 13:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 15:09:41.717341
- Title: Autoregressive Policy Optimization for Constrained Allocation Tasks
- Title(参考訳): 制約付き割当タスクに対する自己回帰的ポリシー最適化
- Authors: David Winkel, Niklas Strauß, Maximilian Bernhard, Zongyue Li, Thomas Seidl, Matthias Schubert,
- Abstract要約: 本稿では,各エンティティのアロケーションを逐次サンプリングする自己回帰プロセスに基づく制約付きアロケーションタスクの新しい手法を提案する。
さらに, 逐次サンプリングによる初期バイアスに対処する新しい脱バイアス機構を提案する。
- 参考スコア(独自算出の注目度): 4.316765170255551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Allocation tasks represent a class of problems where a limited amount of resources must be allocated to a set of entities at each time step. Prominent examples of this task include portfolio optimization or distributing computational workloads across servers. Allocation tasks are typically bound by linear constraints describing practical requirements that have to be strictly fulfilled at all times. In portfolio optimization, for example, investors may be obligated to allocate less than 30\% of the funds into a certain industrial sector in any investment period. Such constraints restrict the action space of allowed allocations in intricate ways, which makes learning a policy that avoids constraint violations difficult. In this paper, we propose a new method for constrained allocation tasks based on an autoregressive process to sequentially sample allocations for each entity. In addition, we introduce a novel de-biasing mechanism to counter the initial bias caused by sequential sampling. We demonstrate the superior performance of our approach compared to a variety of Constrained Reinforcement Learning (CRL) methods on three distinct constrained allocation tasks: portfolio optimization, computational workload distribution, and a synthetic allocation benchmark. Our code is available at: https://github.com/niklasdbs/paspo
- Abstract(参考訳): 割り当てタスクは、各ステップで限られた量のリソースをエンティティのセットに割り当てなければならない問題のクラスを表す。
このタスクの代表的な例としては、ポートフォリオの最適化や、サーバ間で計算ワークロードの分散がある。
割り当てタスクは通常、常に厳密に満たさなければならない実践的な要件を記述する線形制約によって拘束される。
例えば、ポートフォリオ最適化においては、投資家は投資期間中に特定の産業セクターに資金の30%未満を割り当てなければならない。
このような制約は、複雑な方法で許可されたアロケーションのアクション空間を制限するため、制約違反を回避するためのポリシーを学ぶのが難しくなる。
本稿では,各エンティティのアロケーションを逐次サンプリングする自己回帰プロセスに基づく制約付きアロケーションタスクの新しい手法を提案する。
さらに, 逐次サンプリングによる初期バイアスに対処する新しい脱バイアス機構を提案する。
本稿では, ポートフォリオ最適化, 計算負荷分布, 合成アロケーションベンチマークの3つの制約付アロケーションタスクにおいて, 制約付き強化学習(CRL)手法と比較して, 提案手法の優れた性能を示す。
私たちのコードは、https://github.com/niklasdbs/paspoで利用可能です。
関連論文リスト
- Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [61.580419063416734]
最近の構造化学習手法のストリームは、様々な最適化問題に対する技術の実践的状態を改善している。
鍵となる考え方は、インスタンスを別々に扱うのではなく、インスタンス上の統計分布を利用することだ。
本稿では,最適化を容易にし,一般化誤差を改善するポリシを摂動することでリスクを円滑にする手法について検討する。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Simplex Decomposition for Portfolio Allocation Constraints in Reinforcement Learning [4.1573460459258245]
本稿では,制約作用空間を非制約配置問題に分解した上で,アロケーション制約に対処する新しい手法を提案する。
本稿では、タスクのアクション空間が分解されたアクション空間と等価であることを示し、新しい強化学習(RL)アプローチCAOSDを導入する。
論文 参考訳(メタデータ) (2024-04-16T16:00:59Z) - Efficient Constraint Generation for Stochastic Shortest Path Problems [0.0]
最短経路問題(SSP)に対する制約生成の効率的なバージョンを提案する。
この手法により、アルゴリズムは準最適動作を無視し、コスト・ツー・ゴーの計算を回避できる。
実験の結果, CG-iLAO* は iLAO* の作用の最大57% を無視し, LRTDP や iLAO* よりも最大8倍, 3倍高速に問題を解くことがわかった。
論文 参考訳(メタデータ) (2024-01-26T04:00:07Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Quantization for decentralized learning under subspace constraints [61.59416703323886]
エージェントがサブスペース制約を最小化するために個々のコスト関数を持つ分散最適化問題を考察する。
本稿では,エージェントが確率化量子化器を用いて推定値を圧縮する適応分散型戦略を提案し,検討する。
この分析は、量子化ノイズのいくつかの一般的な条件下では、平均二乗誤差と平均ビットレートの両方で戦略が安定であることを示している。
論文 参考訳(メタデータ) (2022-09-16T09:38:38Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - A new perspective on classification: optimally allocating limited
resources to uncertain tasks [4.169130102668252]
例えば、クレジットカード詐欺検出では、銀行は詐欺捜査チームに少数の取引しか割り当てることができない。
我々は、タスクの不確実性に対処するために分類を使うことは、利用可能な能力を考慮していないため、本質的には最適ではないと論じる。
本稿では,限られた能力しか持たない課題の期待利益を直接最適化することで,ランク付けのための学習を用いた新しいソリューションを提案する。
論文 参考訳(メタデータ) (2022-02-09T10:14:45Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。