論文の概要: Direct Behavior Specification via Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.12228v1
- Date: Wed, 22 Dec 2021 21:12:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 16:37:07.060177
- Title: Direct Behavior Specification via Constrained Reinforcement Learning
- Title(参考訳): 制約付き強化学習による直接行動仕様
- Authors: Julien Roy, Roger Girgis, Joshua Romoff, Pierre-Luc Bacon and
Christopher Pal
- Abstract要約: CMDPは、一連の行動制約を順守しながら、ゴールベースのタスクを解決するように適応することができる。
ビデオゲームにおけるNPC設計のための強化学習の適用に関連する一連の連続制御タスクについて,本フレームワークの評価を行った。
- 参考スコア(独自算出の注目度): 12.679780444702573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The standard formulation of Reinforcement Learning lacks a practical way of
specifying what are admissible and forbidden behaviors. Most often,
practitioners go about the task of behavior specification by manually
engineering the reward function, a counter-intuitive process that requires
several iterations and is prone to reward hacking by the agent. In this work,
we argue that constrained RL, which has almost exclusively been used for safe
RL, also has the potential to significantly reduce the amount of work spent for
reward specification in applied Reinforcement Learning projects. To this end,
we propose to specify behavioral preferences in the CMDP framework and to use
Lagrangian methods, which seek to solve a min-max problem between the agent's
policy and the Lagrangian multipliers, to automatically weigh each of the
behavioral constraints. Specifically, we investigate how CMDPs can be adapted
in order to solve goal-based tasks while adhering to a set of behavioral
constraints and propose modifications to the SAC-Lagrangian algorithm to handle
the challenging case of several constraints. We evaluate this framework on a
set of continuous control tasks relevant to the application of Reinforcement
Learning for NPC design in video games.
- Abstract(参考訳): 強化学習の標準的な定式化には、許容される行動と禁止される行動を特定する実践的な方法が欠けている。
多くの場合、実践者は報酬関数を手作業で設計することで行動仕様のタスクに取り掛かる。
本研究は, 安全なRLにのみ使用されている制約付きRLが, 応用強化学習プロジェクトにおいて, 報酬仕様に費やされる作業量を大幅に削減する可能性についても論じる。
そこで本研究では,エージェントのポリシーとラグランジアン乗算器との間の最小限の問題を解くためのラグランジアン手法を用いて,CMDPフレームワークにおける行動選好を規定し,それぞれの行動制約を自動的に評価する手法を提案する。
具体的には,動作制約の集合に固執しながら,目標に基づく課題を解くためにCMDPをどのように適用できるかを考察し,いくつかの制約に対処するためのSAC-ラグランジアンアルゴリズムの修正を提案する。
ビデオゲームにおけるNPC設計のための強化学習の適用に関連する一連の連続制御タスクについて,本フレームワークの評価を行った。
関連論文リスト
- Constraints as Rewards: Reinforcement Learning for Robots without Reward Functions [0.0]
強化学習は複雑なロボット行動を生成するための重要なアルゴリズムとなっている。
このような振る舞いを学習するには、タスクを記述する報酬関数を設計する必要がある。
本稿では,CaR(Constraints as Rewards)の概念を提案する。
論文 参考訳(メタデータ) (2025-01-08T01:59:47Z) - Constrained Reinforcement Learning with Smoothed Log Barrier Function [27.216122901635018]
CSAC-LB (Constrained Soft Actor-Critic with Log Barrier Function) と呼ばれる新しい制約付きRL法を提案する。
線形スムーズなログバリア関数を追加の安全評論家に適用することにより、事前トレーニングなしで競争性能を達成する。
CSAC-LBでは,様々な難易度を有する制約付き制御タスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T16:02:52Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Regularized Soft Actor-Critic for Behavior Transfer Learning [10.519534498340482]
既存の模倣学習手法は主に、エージェントを実演行動に効果的に模倣することに焦点を当てている。
本稿では,主課題と模倣課題を定式化する正則化ソフトアクター・クライト法を提案する。
ビデオゲームアプリケーションに関連する連続制御タスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-27T07:52:04Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Reinforcement Learning Agent Training with Goals for Real World Tasks [3.747737951407512]
強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。
複雑な制御および最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。
提案手法は現実世界のタスクを多種多様なタスクで指定するのに非常に容易であることを示す実験のセットを含む。
論文 参考訳(メタデータ) (2021-07-21T23:21:16Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Regularized Inverse Reinforcement Learning [49.78352058771138]
逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。
正規化IRLは学習者のポリシーに強い凸正則化を施す。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
論文 参考訳(メタデータ) (2020-10-07T23:38:47Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。