論文の概要: Normalization Enhances Generalization in Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.00656v1
- Date: Thu, 1 Jun 2023 13:24:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 16:06:23.852169
- Title: Normalization Enhances Generalization in Visual Reinforcement Learning
- Title(参考訳): 視覚強化学習における正規化の一般化
- Authors: Lu Li, Jiafei Lyu, Guozheng Ma, Zilin Wang, Zhenjie Yang, Xiu Li,
Zhiheng Li
- Abstract要約: 正規化技術は 教師なしと教師なしの学習で 大きな成功を収めています
一般化能力を高めるためには,適切な正規化手法を組み込むことが十分であることがわかった。
本手法は, 試料効率にわずかに影響を及ぼすことなく, 一般化能力を大幅に向上させる。
- 参考スコア(独自算出の注目度): 20.04754884180226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in visual reinforcement learning (RL) have led to impressive
success in handling complex tasks. However, these methods have demonstrated
limited generalization capability to visual disturbances, which poses a
significant challenge for their real-world application and adaptability. Though
normalization techniques have demonstrated huge success in supervised and
unsupervised learning, their applications in visual RL are still scarce. In
this paper, we explore the potential benefits of integrating normalization into
visual RL methods with respect to generalization performance. We find that,
perhaps surprisingly, incorporating suitable normalization techniques is
sufficient to enhance the generalization capabilities, without any additional
special design. We utilize the combination of two normalization techniques,
CrossNorm and SelfNorm, for generalizable visual RL. Extensive experiments are
conducted on DMControl Generalization Benchmark and CARLA to validate the
effectiveness of our method. We show that our method significantly improves
generalization capability while only marginally affecting sample efficiency. In
particular, when integrated with DrQ-v2, our method enhances the test
performance of DrQ-v2 on CARLA across various scenarios, from 14% of the
training performance to 97%.
- Abstract(参考訳): 近年の視覚強化学習(RL)は,複雑なタスクの処理において顕著な成功を収めている。
しかし、これらの手法は視覚障害に対する限定的な一般化能力を示しており、現実の応用と適応性に大きな課題をもたらす。
正規化技術は教師付き学習や教師なし学習において大きな成功を収めてきたが、視覚的RLの応用はいまだに乏しい。
本稿では,一般化性能に関して,正規化を視覚的RL手法に統合する可能性について検討する。
意外なことに、適切な正規化技術を組み込むことは、特別な設計をせずに一般化能力を高めるのに十分である。
一般化可能な視覚的RLには、CrossNormとSelfNormの2つの正規化手法を組み合わせる。
DMControl Generalization Benchmark と CARLA を用いて実験を行い,本手法の有効性を検証した。
本手法は, サンプル効率に限らず, 一般化能力を大幅に向上することを示す。
特に,drq-v2と統合すると,トレーニング性能の14%から97%まで,carlaにおけるdrq-v2のテスト性能が向上する。
関連論文リスト
- Efficient Reinforcement Learning Through Adaptively Pretrained Visual Encoder [12.310140622800372]
APE:適応事前学習による効率的な強化学習を提案する。
APEは、事前学習期間中に適応的な拡張戦略を使用し、政策学習期間中にタスク環境内でほんのわずかの相互作用しか持たない一般化可能な特徴を抽出する。
その結果、DreamerV3やDrQ-v2といった主流のRL法は、APEを装着すると最先端の性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-02-08T12:57:02Z) - SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [127.47044960572659]
ファウンデーションモデルでは、教師付き微調整(SFT)と強化学習(RL)がポストトレーニング技術として広く使われている。
本稿では,一般化と記憶におけるSFTとRLの違いについて検討する。
RLは、特に結果に基づく報酬で訓練された場合、ルールベースのテキストと視覚的バリエーションの両方で一般化されることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:44Z) - RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning [53.8293458872774]
本稿では,RLDG(Reinforcement Learning Distilled Generalists)を提案する。
我々は、RL生成データで訓練されたジェネラリストポリシーが、人間の実演で訓練された者より一貫して優れていたことを実証する。
以上の結果から,タスク固有RLと一般政策蒸留を組み合わせることで,より有能で効率的なロボット操作システムの開発が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-13T04:57:55Z) - IMEX-Reg: Implicit-Explicit Regularization in the Function Space for Continual Learning [17.236861687708096]
連続学習(CL)は、これまで獲得した知識の破滅的な忘れが原因で、ディープニューラルネットワークの長年にわたる課題の1つである。
低バッファ状態下でのCLにおける経験リハーサルの一般化性能を改善するために,強い帰納バイアスを用いて人間がどのように学習するかに着想を得たIMEX-Regを提案する。
論文 参考訳(メタデータ) (2024-04-28T12:25:09Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Local Feature Swapping for Generalization in Reinforcement Learning [0.0]
特徴写像のチャネル一貫性のある局所置換(CLOP)からなる新しい正規化手法を導入する。
提案手法は,空間的相関に頑健性をもたらし,強化学習における過度に適合する行動を防ぐのに役立つ。
我々はOpenAI Procgen Benchmarkで、CLOP法で訓練されたRLエージェントが、視覚的変化に対する堅牢性と、より優れた一般化特性を示すことを示した。
論文 参考訳(メタデータ) (2022-04-13T13:12:51Z) - Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit
Partial Observability [92.95794652625496]
総合化は強化学習システムの展開における中心的な課題である。
限られた訓練条件から検査条件を特定できないように一般化することは、暗黙的な部分観察可能性をもたらすことを示す。
我々は、RLにおける一般化の問題を、部分的に観察されたマルコフ決定過程の解法として再考した。
論文 参考訳(メタデータ) (2021-07-13T17:59:25Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z) - How to Make Deep RL Work in Practice [15.740760669623876]
最新のアルゴリズムの報告結果は、しばしば再現が困難である。
デフォルトで使用するテクニックのどれを推奨し、RLに特化されたソリューションの恩恵を受ける可能性のある領域を強調します。
論文 参考訳(メタデータ) (2020-10-25T10:37:54Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。