論文の概要: Timing is Everything: Learning to Act Selectively with Costly Actions
and Budgetary Constraints
- arxiv url: http://arxiv.org/abs/2205.15953v1
- Date: Tue, 31 May 2022 16:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 14:48:17.272675
- Title: Timing is Everything: Learning to Act Selectively with Costly Actions
and Budgetary Constraints
- Title(参考訳): タイミングはすべて:コストのかかる行動と予算制約で選択的に行動することを学ぶ
- Authors: David Mguni, Aivar Sootla, Juliusz Ziomek, Oliver Slumbers, Zipeng
Dai, Kun Shao, Jun Wang
- Abstract要約: 本稿では,Learningable Impulse Control Reinforcement Algorithm (LICRA) という強化学習フレームワークを提案する。
licRAは、いつ行動するか、どのアクションがコストを発生させるかの両方を最適に選択することを学ぶ。
licRAが最適値関数を学習し、予算制約がほぼ確実に満たされることを示す。
- 参考スコア(独自算出の注目度): 9.132215354916784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world settings involve costs for performing actions; transaction
costs in financial systems and fuel costs being common examples. In these
settings, performing actions at each time step quickly accumulates costs
leading to vastly suboptimal outcomes. Additionally, repeatedly acting produces
wear and tear and ultimately, damage. Determining when to act is crucial for
achieving successful outcomes and yet, the challenge of efficiently learning to
behave optimally when actions incur minimally bounded costs remains unresolved.
In this paper, we introduce a reinforcement learning (RL) framework named
Learnable Impulse Control Reinforcement Algorithm (LICRA), for learning to
optimally select both when to act and which actions to take when actions incur
costs. At the core of LICRA is a nested structure that combines RL and a form
of policy known as impulse control which learns to maximise objectives when
actions incur costs. We prove that LICRA, which seamlessly adopts any RL
method, converges to policies that optimally select when to perform actions and
their optimal magnitudes. We then augment LICRA to handle problems in which the
agent can perform at most $k<\infty$ actions and more generally, faces a budget
constraint. We show LICRA learns the optimal value function and ensures budget
constraints are satisfied almost surely. We demonstrate empirically LICRA's
superior performance against benchmark RL methods in OpenAI gym's Lunar Lander
and in Highway environments and a variant of the Merton portfolio problem
within finance.
- Abstract(参考訳): 多くの現実世界の設定では、アクションの実行にコストがかかり、金融システムのトランザクションコストや燃料コストが一般的な例である。
これらの設定では、各ステップでのアクションの実行は、すぐにコストを蓄積し、非常に低い結果をもたらす。
さらに、反復的な演技は、摩耗と涙を生じさせ、最終的にダメージを与える。
成功を達成するにはいつ行動すべきかを決定することが不可欠であるが、最小限の制限付きコストを伴わないアクションが最適に振る舞うように効率的に学習することの課題は解決されていない。
本稿では,学習者がいつ行動すべきか,どの行動にコストがかかるのかを最適に選択するための,Learable Impulse Control Reinforcement Algorithm (LICRA) という強化学習フレームワークを提案する。
licRAの中核は、RLとインパルス制御と呼ばれるポリシーの形式を組み合わせたネスト構造で、アクションがコストを発生させたときに目的を最大化する。
我々は,任意のRL法をシームレスに採用したlicRAが,動作のタイミングと最適等級を最適に選択するポリシーに収束していることを証明する。
次に、エージェントが最大$k<\infty$アクションで実行できる問題に対処するためにlicRAを増強し、より一般的には予算制約に直面します。
licRAが最適値関数を学習し、予算制約がほぼ確実に満たされることを示す。
我々は,openai gym のlunar lander および高速道路環境におけるベンチマーク rl 手法に対する licra の優れた性能と,金融におけるmerton portfolio 問題の変種を示す。
関連論文リスト
- Provably Efficient Action-Manipulation Attack Against Continuous Reinforcement Learning [49.48615590763914]
我々は,モンテカルロ木探索法を用いて効率的な行動探索と操作を行うLCBTというブラックボックス攻撃アルゴリズムを提案する。
提案手法は, DDPG, PPO, TD3の3つの攻撃的アルゴリズムに対して, 連続的な設定で実行し, 攻撃性能が期待できることを示す。
論文 参考訳(メタデータ) (2024-11-20T08:20:29Z) - Control when confidence is costly [4.683612295430957]
我々は、推論の計算コストを考慮に入れた制御バージョンを開発する。
線形二次ガウス (LQG) 制御について, 後続確率の相対的精度について, 内部コストを加算して検討した。
共同推論と制御問題を解く合理的戦略は,タスク要求に応じて相転移を経る。
論文 参考訳(メタデータ) (2024-06-20T15:50:38Z) - Continual Learning on a Diet: Learning from Sparsely Labeled Streams Under Constrained Computation [123.4883806344334]
本研究では,学習アルゴリズムが学習段階ごとに制限された計算予算を付与する,現実的な連続学習環境について検討する。
この設定を,スパースラベル率の高い大規模半教師付き連続学習シナリオに適用する。
広範に分析と改善を行った結果,DietCLはラベル空間,計算予算,その他様々な改善の完全な範囲で安定していることがわかった。
論文 参考訳(メタデータ) (2024-04-19T10:10:39Z) - Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning [11.666700714916065]
制約付きRLは強化学習における安全な行動を実施するためのフレームワークである。
制約付きRLを解くための最近の手法は、軌道に基づくコスト制約を代理問題に変換する。
トラジェクトリに基づくコスト制約を変更しず、代わりにグッドのトラジェクトリを模倣するアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-16T08:48:46Z) - Solving Richly Constrained Reinforcement Learning through State
Augmentation and Reward Penalties [8.86470998648085]
主な課題は、ポリシーを使用して蓄積された期待されるコストを扱うことだ。
既存の手法は、政策全体に対するこのコスト制約を、局所的な決定に対する制約に変換する革新的な方法を開発した。
我々は、拡張状態空間と報酬ペナルティを有する制約付きRLに等価な制約のない定式化を提供する。
論文 参考訳(メタデータ) (2023-01-27T08:33:08Z) - AutoCost: Evolving Intrinsic Cost for Zero-violation Reinforcement
Learning [3.4806267677524896]
我々は、制約付きRLがゼロ違反性能を達成するのに役立つコスト関数を自動的に検索するフレームワークであるAutoCostを提案する。
我々は,我々のコスト関数を用いた補助エージェントの性能を,同じ政策学習者を用いたベースラインエージェントに付加的な内在的コストを与えるために,外在的コストのみを伴って比較した。
論文 参考訳(メタデータ) (2023-01-24T22:51:29Z) - Learn Continuously, Act Discretely: Hybrid Action-Space Reinforcement
Learning For Optimal Execution [8.021077964915996]
強化学習は、注文分割のサイズを決定するのに役立つ。
主な課題は、アクション空間の「連続離散双対性」にある。
本稿では,両者の利点を組み合わせたハイブリッドRL法を提案する。
論文 参考訳(メタデータ) (2022-07-22T15:50:44Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。