論文の概要: Timing is Everything: Learning to Act Selectively with Costly Actions
and Budgetary Constraints
- arxiv url: http://arxiv.org/abs/2205.15953v4
- Date: Sun, 4 Jun 2023 23:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 05:13:35.589912
- Title: Timing is Everything: Learning to Act Selectively with Costly Actions
and Budgetary Constraints
- Title(参考訳): タイミングはすべて:コストのかかる行動と予算制約で選択的に行動することを学ぶ
- Authors: David Mguni, Aivar Sootla, Juliusz Ziomek, Oliver Slumbers, Zipeng
Dai, Kun Shao, Jun Wang
- Abstract要約: textbfLearnable textbfImpulse textbfControl textbfReinforcement textbfAlgorithm (licRA) という強化学習フレームワークを導入する。
licRA の中核は、RL とtextitimpulse control として知られるポリシーの形式を組み合わせたネスト構造であり、アクションがコストを発生させたときに目的を最大化することを学ぶ。
licRAが最適値関数を学習し、予算制約がほぼ確実に満たされることを示す。
- 参考スコア(独自算出の注目度): 9.132215354916784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world settings involve costs for performing actions; transaction
costs in financial systems and fuel costs being common examples. In these
settings, performing actions at each time step quickly accumulates costs
leading to vastly suboptimal outcomes. Additionally, repeatedly acting produces
wear and tear and ultimately, damage. Determining \textit{when to act} is
crucial for achieving successful outcomes and yet, the challenge of efficiently
\textit{learning} to behave optimally when actions incur minimally bounded
costs remains unresolved. In this paper, we introduce a reinforcement learning
(RL) framework named \textbf{L}earnable \textbf{I}mpulse \textbf{C}ontrol
\textbf{R}einforcement \textbf{A}lgorithm (LICRA), for learning to optimally
select both when to act and which actions to take when actions incur costs. At
the core of LICRA is a nested structure that combines RL and a form of policy
known as \textit{impulse control} which learns to maximise objectives when
actions incur costs. We prove that LICRA, which seamlessly adopts any RL
method, converges to policies that optimally select when to perform actions and
their optimal magnitudes. We then augment LICRA to handle problems in which the
agent can perform at most $k<\infty$ actions and more generally, faces a budget
constraint. We show LICRA learns the optimal value function and ensures budget
constraints are satisfied almost surely. We demonstrate empirically LICRA's
superior performance against benchmark RL methods in OpenAI gym's \textit{Lunar
Lander} and in \textit{Highway} environments and a variant of the Merton
portfolio problem within finance.
- Abstract(参考訳): 多くの現実世界の設定では、アクションの実行にコストがかかり、金融システムのトランザクションコストや燃料コストが一般的な例である。
これらの設定では、各ステップでのアクションの実行は、すぐにコストを蓄積し、非常に低い結果をもたらす。
さらに、反復的な演技は、摩耗と涙を生じさせ、最終的にダメージを与える。
textit{when to act} の決定は成功には不可欠であるが、最小の有界コストを伴わないアクションが最適に振る舞うことの課題は解決されていない。
本稿では,行動時と行動時の両方を最適に選択するために,強化学習(RL)フレームワークであるtextbf{L}earnable \textbf{I}mpulse \textbf{C}ontrol \textbf{R}einforcement \textbf{A}lgorithm (licRA)を導入する。
licraの中核は、rlと \textit{impulse control}として知られるポリシーを結合したネスト構造であり、アクションがコストが発生すると目的を最大化するために学習する。
我々は,任意のRL法をシームレスに採用したlicRAが,動作のタイミングと最適等級を最適に選択するポリシーに収束していることを証明する。
次に、エージェントが最大$k<\infty$アクションで実行できる問題に対処するためにlicRAを増強し、より一般的には予算制約に直面します。
licRAが最適値関数を学習し、予算制約がほぼ確実に満たされることを示す。
我々は,openai gym の \textit{lunar lander} と \textit{highway} 環境でのベンチマーク rl メソッドに対する licra の優れた性能と,金融における merton portfolio 問題の変種を示す。
関連論文リスト
- Provably Efficient Action-Manipulation Attack Against Continuous Reinforcement Learning [49.48615590763914]
我々は,モンテカルロ木探索法を用いて効率的な行動探索と操作を行うLCBTというブラックボックス攻撃アルゴリズムを提案する。
提案手法は, DDPG, PPO, TD3の3つの攻撃的アルゴリズムに対して, 連続的な設定で実行し, 攻撃性能が期待できることを示す。
論文 参考訳(メタデータ) (2024-11-20T08:20:29Z) - Control when confidence is costly [4.683612295430957]
我々は、推論の計算コストを考慮に入れた制御バージョンを開発する。
線形二次ガウス (LQG) 制御について, 後続確率の相対的精度について, 内部コストを加算して検討した。
共同推論と制御問題を解く合理的戦略は,タスク要求に応じて相転移を経る。
論文 参考訳(メタデータ) (2024-06-20T15:50:38Z) - Continual Learning on a Diet: Learning from Sparsely Labeled Streams Under Constrained Computation [123.4883806344334]
本研究では,学習アルゴリズムが学習段階ごとに制限された計算予算を付与する,現実的な連続学習環境について検討する。
この設定を,スパースラベル率の高い大規模半教師付き連続学習シナリオに適用する。
広範に分析と改善を行った結果,DietCLはラベル空間,計算予算,その他様々な改善の完全な範囲で安定していることがわかった。
論文 参考訳(メタデータ) (2024-04-19T10:10:39Z) - Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning [11.666700714916065]
制約付きRLは強化学習における安全な行動を実施するためのフレームワークである。
制約付きRLを解くための最近の手法は、軌道に基づくコスト制約を代理問題に変換する。
トラジェクトリに基づくコスト制約を変更しず、代わりにグッドのトラジェクトリを模倣するアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-16T08:48:46Z) - Solving Richly Constrained Reinforcement Learning through State
Augmentation and Reward Penalties [8.86470998648085]
主な課題は、ポリシーを使用して蓄積された期待されるコストを扱うことだ。
既存の手法は、政策全体に対するこのコスト制約を、局所的な決定に対する制約に変換する革新的な方法を開発した。
我々は、拡張状態空間と報酬ペナルティを有する制約付きRLに等価な制約のない定式化を提供する。
論文 参考訳(メタデータ) (2023-01-27T08:33:08Z) - AutoCost: Evolving Intrinsic Cost for Zero-violation Reinforcement
Learning [3.4806267677524896]
我々は、制約付きRLがゼロ違反性能を達成するのに役立つコスト関数を自動的に検索するフレームワークであるAutoCostを提案する。
我々は,我々のコスト関数を用いた補助エージェントの性能を,同じ政策学習者を用いたベースラインエージェントに付加的な内在的コストを与えるために,外在的コストのみを伴って比較した。
論文 参考訳(メタデータ) (2023-01-24T22:51:29Z) - Learn Continuously, Act Discretely: Hybrid Action-Space Reinforcement
Learning For Optimal Execution [8.021077964915996]
強化学習は、注文分割のサイズを決定するのに役立つ。
主な課題は、アクション空間の「連続離散双対性」にある。
本稿では,両者の利点を組み合わせたハイブリッドRL法を提案する。
論文 参考訳(メタデータ) (2022-07-22T15:50:44Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。