Fugu-MT 論文翻訳(概要): Timing is Everything: Learning to Act Selectively with Costly Actions and Budgetary Constraints

論文の概要: Timing is Everything: Learning to Act Selectively with Costly Actions and Budgetary Constraints

arxiv url: http://arxiv.org/abs/2205.15953v4
Date: Sun, 4 Jun 2023 23:59:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 05:13:35.589912
Title: Timing is Everything: Learning to Act Selectively with Costly Actions and Budgetary Constraints
Title（参考訳）: タイミングはすべて:コストのかかる行動と予算制約で選択的に行動することを学ぶ
Authors: David Mguni, Aivar Sootla, Juliusz Ziomek, Oliver Slumbers, Zipeng Dai, Kun Shao, Jun Wang
Abstract要約: textbfLearnable textbfImpulse textbfControl textbfReinforcement textbfAlgorithm (licRA) という強化学習フレームワークを導入する。 licRA の中核は、RL とtextitimpulse control として知られるポリシーの形式を組み合わせたネスト構造であり、アクションがコストを発生させたときに目的を最大化することを学ぶ。 licRAが最適値関数を学習し、予算制約がほぼ確実に満たされることを示す。
参考スコア（独自算出の注目度）: 9.132215354916784
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many real-world settings involve costs for performing actions; transaction costs in financial systems and fuel costs being common examples. In these settings, performing actions at each time step quickly accumulates costs leading to vastly suboptimal outcomes. Additionally, repeatedly acting produces wear and tear and ultimately, damage. Determining \textit{when to act} is crucial for achieving successful outcomes and yet, the challenge of efficiently \textit{learning} to behave optimally when actions incur minimally bounded costs remains unresolved. In this paper, we introduce a reinforcement learning (RL) framework named \textbf{L}earnable \textbf{I}mpulse \textbf{C}ontrol \textbf{R}einforcement \textbf{A}lgorithm (LICRA), for learning to optimally select both when to act and which actions to take when actions incur costs. At the core of LICRA is a nested structure that combines RL and a form of policy known as \textit{impulse control} which learns to maximise objectives when actions incur costs. We prove that LICRA, which seamlessly adopts any RL method, converges to policies that optimally select when to perform actions and their optimal magnitudes. We then augment LICRA to handle problems in which the agent can perform at most $k<\infty$ actions and more generally, faces a budget constraint. We show LICRA learns the optimal value function and ensures budget constraints are satisfied almost surely. We demonstrate empirically LICRA's superior performance against benchmark RL methods in OpenAI gym's \textit{Lunar Lander} and in \textit{Highway} environments and a variant of the Merton portfolio problem within finance.
Abstract（参考訳）: 多くの現実世界の設定では、アクションの実行にコストがかかり、金融システムのトランザクションコストや燃料コストが一般的な例である。これらの設定では、各ステップでのアクションの実行は、すぐにコストを蓄積し、非常に低い結果をもたらす。さらに、反復的な演技は、摩耗と涙を生じさせ、最終的にダメージを与える。 textit{when to act} の決定は成功には不可欠であるが、最小の有界コストを伴わないアクションが最適に振る舞うことの課題は解決されていない。本稿では,行動時と行動時の両方を最適に選択するために,強化学習(RL)フレームワークであるtextbf{L}earnable \textbf{I}mpulse \textbf{C}ontrol \textbf{R}einforcement \textbf{A}lgorithm (licRA)を導入する。 licraの中核は、rlと \textit{impulse control}として知られるポリシーを結合したネスト構造であり、アクションがコストが発生すると目的を最大化するために学習する。我々は,任意のRL法をシームレスに採用したlicRAが,動作のタイミングと最適等級を最適に選択するポリシーに収束していることを証明する。次に、エージェントが最大$k<\infty$アクションで実行できる問題に対処するためにlicRAを増強し、より一般的には予算制約に直面します。 licRAが最適値関数を学習し、予算制約がほぼ確実に満たされることを示す。我々は,openai gym の \textit{lunar lander} と \textit{highway} 環境でのベンチマーク rl メソッドに対する licra の優れた性能と,金融における merton portfolio 問題の変種を示す。

関連論文リスト

No-Regret Learning Under Adversarial Resource Constraints: A Spending Plan Is All You Need! [56.80767500991973]
アクション選択の前に報酬とコストが観測される$(i)$オンラインリソース割当と、アクション選択後、完全なフィードバックや盗賊フィードバックの下で、リソース制限付きオンライン学習である$(ii)$オンラインリソース割当に焦点を当てた。報酬とコスト分布が時間とともに任意に変化する場合、これらの設定でサブ線形後悔を達成することは不可能であることが知られている。我々は、支出計画に従う基準線に対する半線形後悔を実現する一般的な(基本的)二重的手法を設計し、また、支出計画が予算のバランスの取れた配分を保証すると、アルゴリズムの性能が向上する。
論文参考訳（メタデータ） (2025-06-16T08:42:31Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文参考訳（メタデータ） (2025-02-04T03:36:44Z)
Provably Efficient Action-Manipulation Attack Against Continuous Reinforcement Learning [49.48615590763914]
我々は,モンテカルロ木探索法を用いて効率的な行動探索と操作を行うLCBTというブラックボックス攻撃アルゴリズムを提案する。提案手法は, DDPG, PPO, TD3の3つの攻撃的アルゴリズムに対して, 連続的な設定で実行し, 攻撃性能が期待できることを示す。
論文参考訳（メタデータ） (2024-11-20T08:20:29Z)
Control when confidence is costly [4.683612295430957]
我々は、推論の計算コストを考慮に入れた制御バージョンを開発する。線形二次ガウス (LQG) 制御について, 後続確率の相対的精度について, 内部コストを加算して検討した。共同推論と制御問題を解く合理的戦略は,タスク要求に応じて相転移を経る。
論文参考訳（メタデータ） (2024-06-20T15:50:38Z)
Continual Learning on a Diet: Learning from Sparsely Labeled Streams Under Constrained Computation [123.4883806344334]
本研究では,学習アルゴリズムが学習段階ごとに制限された計算予算を付与する,現実的な連続学習環境について検討する。この設定を,スパースラベル率の高い大規模半教師付き連続学習シナリオに適用する。広範に分析と改善を行った結果,DietCLはラベル空間,計算予算,その他様々な改善の完全な範囲で安定していることがわかった。
論文参考訳（メタデータ） (2024-04-19T10:10:39Z)
Reinforcement Learning from Human Feedback with Active Queries [59.855433734053555]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。本稿では,能動学習の成功に触発された問合せ効率の高いRLHF手法を提案する。実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2024-02-14T18:58:40Z)
Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-14T07:27:30Z)
Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning [11.666700714916065]
制約付きRLは強化学習における安全な行動を実施するためのフレームワークである。制約付きRLを解くための最近の手法は、軌道に基づくコスト制約を代理問題に変換する。トラジェクトリに基づくコスト制約を変更しず、代わりにグッドのトラジェクトリを模倣するアプローチを提案する。
論文参考訳（メタデータ） (2023-12-16T08:48:46Z)
Solving Richly Constrained Reinforcement Learning through State Augmentation and Reward Penalties [8.86470998648085]
主な課題は、ポリシーを使用して蓄積された期待されるコストを扱うことだ。既存の手法は、政策全体に対するこのコスト制約を、局所的な決定に対する制約に変換する革新的な方法を開発した。我々は、拡張状態空間と報酬ペナルティを有する制約付きRLに等価な制約のない定式化を提供する。
論文参考訳（メタデータ） (2023-01-27T08:33:08Z)
AutoCost: Evolving Intrinsic Cost for Zero-violation Reinforcement Learning [3.4806267677524896]
我々は、制約付きRLがゼロ違反性能を達成するのに役立つコスト関数を自動的に検索するフレームワークであるAutoCostを提案する。我々は,我々のコスト関数を用いた補助エージェントの性能を,同じ政策学習者を用いたベースラインエージェントに付加的な内在的コストを与えるために,外在的コストのみを伴って比較した。
論文参考訳（メタデータ） (2023-01-24T22:51:29Z)
Learn Continuously, Act Discretely: Hybrid Action-Space Reinforcement Learning For Optimal Execution [8.021077964915996]
強化学習は、注文分割のサイズを決定するのに役立つ。主な課題は、アクション空間の「連続離散双対性」にある。本稿では,両者の利点を組み合わせたハイブリッドRL法を提案する。
論文参考訳（メタデータ） (2022-07-22T15:50:44Z)
Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文参考訳（メタデータ） (2020-04-02T17:04:52Z)
Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文参考訳（メタデータ） (2020-03-06T06:28:17Z)
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文参考訳（メタデータ） (2020-02-22T10:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。