論文の概要: Towards Task-Prioritized Policy Composition
- arxiv url: http://arxiv.org/abs/2209.09536v1
- Date: Tue, 20 Sep 2022 08:08:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 17:42:41.761596
- Title: Towards Task-Prioritized Policy Composition
- Title(参考訳): タスク優先政策構成に向けて
- Authors: Finn Rietz, Erik Schaffernicht, Todor Stoyanov, Johannes A. Stork
- Abstract要約: 強化学習のためのタスク優先型合成フレームワークを提案する。
我々のフレームワークは、知識伝達とモジュラー設計を促進すると同時に、強化学習エージェントのデータ効率とデータ再利用を大幅に向上させる可能性がある。
ヌル空間制御とは異なり,本手法は,初期複合政策構築後の高次政策の無関心空間におけるオンライン学習により,複合課題に対するグローバルな最適政策の学習を可能にする。
- 参考スコア(独自算出の注目度): 10.477909792349823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combining learned policies in a prioritized, ordered manner is desirable
because it allows for modular design and facilitates data reuse through
knowledge transfer. In control theory, prioritized composition is realized by
null-space control, where low-priority control actions are projected into the
null-space of high-priority control actions. Such a method is currently
unavailable for Reinforcement Learning. We propose a novel, task-prioritized
composition framework for Reinforcement Learning, which involves a novel
concept: The indifferent-space of Reinforcement Learning policies. Our
framework has the potential to facilitate knowledge transfer and modular design
while greatly increasing data efficiency and data reuse for Reinforcement
Learning agents. Further, our approach can ensure high-priority constraint
satisfaction, which makes it promising for learning in safety-critical domains
like robotics. Unlike null-space control, our approach allows learning globally
optimal policies for the compound task by online learning in the
indifference-space of higher-level policies after initial compound policy
construction.
- Abstract(参考訳): モジュール設計が可能で、知識転送によるデータの再利用が容易であるため、学習したポリシを優先順位付け、順序付けした方法で組み合わせることが望ましい。
制御理論では、優先度付き合成は、低優先度制御アクションが高優先度制御アクションのヌルスペースに投影されるヌルスペース制御によって実現される。
このような方法は、現在強化学習では利用できない。
本稿では,強化学習のための新しいタスク優先型構成フレームワークを提案する。
本フレームワークは,強化学習エージェントのためのデータ効率とデータ再利用を大幅に向上しつつ,知識伝達とモジュール設計を促進する可能性を秘めている。
さらに,本手法は,ロボット工学のような安全クリティカルな分野の学習を約束する,優先度の高い制約満足度を確保する。
ヌル空間制御とは異なり,本手法は,初期複合政策構築後の高次政策の無関心空間におけるオンライン学習により,複合課題に対するグローバルな最適政策の学習を可能にする。
関連論文リスト
- Iterative Batch Reinforcement Learning via Safe Diversified Model-based Policy Search [2.0072624123275533]
バッチ強化学習は、トレーニング中に環境と直接対話することなく、ポリシー学習を可能にする。
このアプローチは、工業制御のような高リスクでコストのかかるアプリケーションに適しています。
本稿では,アンサンブルに基づくモデルに基づくポリシー探索に基づく反復的バッチ強化学習のためのアルゴリズム手法を提案する。
論文 参考訳(メタデータ) (2024-11-14T11:10:36Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Accelerating Safe Reinforcement Learning with Constraint-mismatched
Policies [34.555500347840805]
本稿では,ベースライン制御ポリシと学習者が満たさなければならない制約のセットを備える場合の強化学習の問題点について考察する。
本稿では,タスクに対する期待リターンの最大化,基本方針への距離の最小化,制約満足度セットへのポリシーの投影とを交互に行う反復的ポリシ最適化アルゴリズムを提案する。
我々のアルゴリズムは、最先端のベースラインを一貫して上回り、制約違反を10倍少なくし、平均で40%高い報酬を得る。
論文 参考訳(メタデータ) (2020-06-20T20:20:47Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z) - First Order Constrained Optimization in Policy Space [19.00289722198614]
政策空間における一階制約最適化(FOCOPS)という新しい手法を提案する。
FOCOPSは、エージェントの全体的な報酬を最大化し、エージェントが一連のコスト制約を満たすことを保証します。
我々は,ロボット機関車の一連の作業において,簡単なアプローチがより良い性能を達成するという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2020-02-16T05:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。