論文の概要: CROP: Towards Distributional-Shift Robust Reinforcement Learning using
Compact Reshaped Observation Processing
- arxiv url: http://arxiv.org/abs/2304.13616v1
- Date: Wed, 26 Apr 2023 15:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 13:52:30.728992
- Title: CROP: Towards Distributional-Shift Robust Reinforcement Learning using
Compact Reshaped Observation Processing
- Title(参考訳): コンパクト再形観測処理による分布シフト型ロバスト強化学習に向けて
- Authors: Philipp Altmann, Fabian Ritz, Leonard Feuchtinger, Jonas
N\"u{\ss}lein, Claudia Linnhoff-Popien, Thomy Phan
- Abstract要約: 一般化のための最近のアプローチは、トレーニングデータの多様性を高めるためにデータ拡張技術を適用している。
重要な情報のみを含む適切な観察を行うことは、それ自体が困難な作業であることが示されている。
政策最適化に使用する状態情報を削減するために,CROP(Compact Reshaped Observation Processing)を提案する。
- 参考スコア(独自算出の注目度): 9.558334272940513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The safe application of reinforcement learning (RL) requires generalization
from limited training data to unseen scenarios. Yet, fulfilling tasks under
changing circumstances is a key challenge in RL. Current state-of-the-art
approaches for generalization apply data augmentation techniques to increase
the diversity of training data. Even though this prevents overfitting to the
training environment(s), it hinders policy optimization. Crafting a suitable
observation, only containing crucial information, has been shown to be a
challenging task itself. To improve data efficiency and generalization
capabilities, we propose Compact Reshaped Observation Processing (CROP) to
reduce the state information used for policy optimization. By providing only
relevant information, overfitting to a specific training layout is precluded
and generalization to unseen environments is improved. We formulate three CROPs
that can be applied to fully observable observation- and action-spaces and
provide methodical foundation. We empirically show the improvements of CROP in
a distributionally shifted safety gridworld. We furthermore provide benchmark
comparisons to full observability and data-augmentation in two different-sized
procedurally generated mazes.
- Abstract(参考訳): 強化学習(rl)の安全な適用には、限られたトレーニングデータから未知のシナリオへの一般化が必要である。
しかし、状況の変化によるタスクの達成は、RLの重要な課題である。
一般化のための最先端のアプローチは、トレーニングデータの多様性を高めるためにデータ拡張技術を適用している。
これにより、トレーニング環境への過度な適合が防がれるが、ポリシーの最適化が妨げられる。
重要な情報のみを含む適切な観察をすること自体が困難な課題であることが示されている。
データ効率と一般化機能を改善するため,政策最適化に使用する状態情報を削減するためにCROP(Compact Reshaped Observation Processing)を提案する。
関連する情報のみを提供することにより、特定のトレーニングレイアウトへの過度な適合が前提となり、見えない環境への一般化が改善される。
観測可能な観測空間と行動空間に適用可能な3つのCROPを定式化し,方法論的基礎を提供する。
分散的に移動した安全グリッドワールドにおけるCROPの改善を実証的に示す。
さらに,2種類の異なるプロセス生成迷路において,完全な可観測性とデータ表示に対するベンチマーク比較を行う。
関連論文リスト
- Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Equivariant Data Augmentation for Generalization in Offline
Reinforcement Learning [10.00979536266327]
オフライン強化学習(RL)における一般化の課題に対処する新しいアプローチを提案する。
具体的には,エージェントのアウト・オブ・ディストリビューション目標への一般化能力の向上を目指す。
我々は、オフラインのオフラインRLアルゴリズムを用いて、拡張データセットに基づいて新しいポリシーをオフラインで学習する。
論文 参考訳(メタデータ) (2023-09-14T10:22:33Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Generalization of Reinforcement Learning with Policy-Aware Adversarial
Data Augmentation [32.70482982044965]
本稿では,自動生成軌道データによる標準方針学習手法の強化を目的とした,新たなポリシー対応逆データ拡張手法を提案する。
提案手法の一般化性能を検討するために, 多数のRLタスクについて実験を行った。
その結果,本手法は訓練の多様性に限界があり,最先端の一般化テスト性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2021-06-29T17:21:59Z) - Generalization in Reinforcement Learning by Soft Data Augmentation [11.752595047069505]
SODA(Soft Data Augmentation)は、政策学習からAugmentationを分離する手法である。
我々は、最先端のビジョンベースRL法によるトレーニングにおいて、サンプル効率、一般化、安定性を著しく向上するSODAを見出した。
論文 参考訳(メタデータ) (2020-11-26T17:00:34Z) - Improving Generalization in Reinforcement Learning with Mixture
Regularization [113.12412071717078]
そこで本研究では,異なるトレーニング環境からの観察を混合してエージェントを訓練する,mixregという簡単なアプローチを提案する。
Mixregはデータの多様性をより効果的に向上し、よりスムーズなポリシーを学ぶのに役立つ。
その結果、mixregは、未確認テスト環境において確立されたベースラインを大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2020-10-21T08:12:03Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。