論文の概要: Learning a subspace of policies for online adaptation in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2110.05169v1
- Date: Mon, 11 Oct 2021 11:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 23:22:29.007227
- Title: Learning a subspace of policies for online adaptation in Reinforcement
Learning
- Title(参考訳): 強化学習におけるオンライン適応政策のサブスペースの学習
- Authors: Jean-Baptiste Gaya, Laure Soulier, Ludovic Denoyer
- Abstract要約: 制御システムでは、ポリシーが学習されるロボットは、ポリシーが実行されるロボットとは異なるかもしれない。
訓練条件のバリエーションによく適合するRL法を開発する必要がある。
本稿では,列車時にテスト環境が不明な一般化環境に取り組む上で,最も簡単な方法を考える。
- 参考スコア(独自算出の注目度): 14.7945053644125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (RL) is mainly studied in a setting where the
training and the testing environments are similar. But in many practical
applications, these environments may differ. For instance, in control systems,
the robot(s) on which a policy is learned might differ from the robot(s) on
which a policy will run. It can be caused by different internal factors (e.g.,
calibration issues, system attrition, defective modules) or also by external
changes (e.g., weather conditions). There is a need to develop RL methods that
generalize well to variations of the training conditions. In this article, we
consider the simplest yet hard to tackle generalization setting where the test
environment is unknown at train time, forcing the agent to adapt to the
system's new dynamics. This online adaptation process can be computationally
expensive (e.g., fine-tuning) and cannot rely on meta-RL techniques since there
is just a single train environment. To do so, we propose an approach where we
learn a subspace of policies within the parameter space. This subspace contains
an infinite number of policies that are trained to solve the training
environment while having different parameter values. As a consequence, two
policies in that subspace process information differently and exhibit different
behaviors when facing variations of the train environment. Our experiments
carried out over a large variety of benchmarks compare our approach with
baselines, including diversity-based methods. In comparison, our approach is
simple to tune, does not need any extra component (e.g., discriminator) and
learns policies able to gather a high reward on unseen environments.
- Abstract(参考訳): 深層強化学習(RL)は主に、トレーニングとテスト環境が類似した環境で研究されている。
しかし、多くの応用において、これらの環境は異なるかもしれない。
例えば、制御システムでは、ポリシーが学習されるロボットは、ポリシーが実行されるロボットとは異なるかもしれない。
これは、異なる内部要因(例えば、キャリブレーションの問題、システム障害、欠陥モジュール)や外部の変化(例えば、気象条件)によって引き起こされる可能性がある。
トレーニング条件のバリエーションにうまく一般化するrl手法を開発する必要がある。
本稿では,テスト環境が未知である一般化設定に対して,エージェントがシステムの新たなダイナミクスに適応せざるを得ないような,最も単純かつ難解な方法を考える。
このオンライン適応プロセスは計算コストがかかり(微調整など)、単一の列車環境が存在するだけでメタRL技術に頼ることはできない。
そこで本研究では,パラメータ空間内のポリシーの部分空間を学習する手法を提案する。
この部分空間は、異なるパラメータ値を持ちながら、トレーニング環境を解決するために訓練される無限個のポリシーを含んでいる。
その結果、サブスペースにおける2つのポリシーは異なる情報を処理し、列車の環境の変化に直面すると異なる行動を示す。
我々の実験は様々なベンチマークを行い、多様性に基づく手法を含むベースラインと比較した。
比較すると、我々のアプローチはチューニングが簡単で、余分なコンポーネント(例えば識別器)は不要であり、目に見えない環境に対して高い報酬を得られるポリシーを学ぶ。
関連論文リスト
- OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。
既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。
本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文 参考訳(メタデータ) (2024-05-29T13:36:36Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Adaptive Tracking of a Single-Rigid-Body Character in Various
Environments [2.048226951354646]
単剛体キャラクタのシミュレーションに基づく深層強化学習手法を提案する。
中心運動モデル (CDM) を用いて, 全身特性を単一剛体 (SRB) として表現し, 基準運動を追跡する政策を訓練することにより, 様々な未観測環境変化に適応できる政策を得ることができる。
弊社の政策は、超ポータブルラップトップ上で30分以内に効率よく訓練され、学習中に経験されていない環境に対処できることを実証する。
論文 参考訳(メタデータ) (2023-08-14T22:58:54Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文 参考訳(メタデータ) (2020-07-08T17:56:27Z) - Fast Adaptation via Policy-Dynamics Value Functions [41.738462615120326]
本稿では,従来のトレーニングと異なる動的に迅速に適応するための新しいアプローチとして,ポリシ・ダイナミックス値関数(PD-VF)を紹介する。
PD-VFは、ポリシーと環境の空間における累積報酬を明示的に推定する。
提案手法は, MuJoCo ドメインの集合上で, 新たな動的処理に迅速に適応可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T16:47:56Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。