Fugu-MT 論文翻訳(概要): Normalization Enhances Generalization in Visual Reinforcement Learning

論文の概要: Normalization Enhances Generalization in Visual Reinforcement Learning

arxiv url: http://arxiv.org/abs/2306.00656v1
Date: Thu, 1 Jun 2023 13:24:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 16:06:23.852169
Title: Normalization Enhances Generalization in Visual Reinforcement Learning
Title（参考訳）: 視覚強化学習における正規化の一般化
Authors: Lu Li, Jiafei Lyu, Guozheng Ma, Zilin Wang, Zhenjie Yang, Xiu Li, Zhiheng Li
Abstract要約: 正規化技術は教師なしと教師なしの学習で大きな成功を収めています一般化能力を高めるためには,適切な正規化手法を組み込むことが十分であることがわかった。本手法は, 試料効率にわずかに影響を及ぼすことなく, 一般化能力を大幅に向上させる。
参考スコア（独自算出の注目度）: 20.04754884180226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in visual reinforcement learning (RL) have led to impressive success in handling complex tasks. However, these methods have demonstrated limited generalization capability to visual disturbances, which poses a significant challenge for their real-world application and adaptability. Though normalization techniques have demonstrated huge success in supervised and unsupervised learning, their applications in visual RL are still scarce. In this paper, we explore the potential benefits of integrating normalization into visual RL methods with respect to generalization performance. We find that, perhaps surprisingly, incorporating suitable normalization techniques is sufficient to enhance the generalization capabilities, without any additional special design. We utilize the combination of two normalization techniques, CrossNorm and SelfNorm, for generalizable visual RL. Extensive experiments are conducted on DMControl Generalization Benchmark and CARLA to validate the effectiveness of our method. We show that our method significantly improves generalization capability while only marginally affecting sample efficiency. In particular, when integrated with DrQ-v2, our method enhances the test performance of DrQ-v2 on CARLA across various scenarios, from 14% of the training performance to 97%.
Abstract（参考訳）: 近年の視覚強化学習(RL)は,複雑なタスクの処理において顕著な成功を収めている。しかし、これらの手法は視覚障害に対する限定的な一般化能力を示しており、現実の応用と適応性に大きな課題をもたらす。正規化技術は教師付き学習や教師なし学習において大きな成功を収めてきたが、視覚的RLの応用はいまだに乏しい。本稿では,一般化性能に関して,正規化を視覚的RL手法に統合する可能性について検討する。意外なことに、適切な正規化技術を組み込むことは、特別な設計をせずに一般化能力を高めるのに十分である。一般化可能な視覚的RLには、CrossNormとSelfNormの2つの正規化手法を組み合わせる。 DMControl Generalization Benchmark と CARLA を用いて実験を行い,本手法の有効性を検証した。本手法は, サンプル効率に限らず, 一般化能力を大幅に向上することを示す。特に,drq-v2と統合すると,トレーニング性能の14%から97%まで,carlaにおけるdrq-v2のテスト性能が向上する。

関連論文リスト

Good Actions Succeed, Bad Actions Generalize: A Case Study on Why RL Generalizes Better [0.3021678014343889]
監視学習(SL)と強化学習(RL)は、複雑なタスクのための汎用エージェントの訓練に広く用いられている。本稿ではゼロショット一般化の観点からSLとRLを直接比較する。
論文参考訳（メタデータ） (2025-03-19T21:03:27Z)
Efficient Reinforcement Learning Through Adaptively Pretrained Visual Encoder [12.310140622800372]
APE:適応事前学習による効率的な強化学習を提案する。 APEは、事前学習期間中に適応的な拡張戦略を使用し、政策学習期間中にタスク環境内でほんのわずかの相互作用しか持たない一般化可能な特徴を抽出する。その結果、DreamerV3やDrQ-v2といった主流のRL法は、APEを装着すると最先端の性能が得られることがわかった。
論文参考訳（メタデータ） (2025-02-08T12:57:02Z)
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [127.47044960572659]
ファウンデーションモデルでは、教師付き微調整(SFT)と強化学習(RL)がポストトレーニング技術として広く使われている。本稿では,一般化と記憶におけるSFTとRLの違いについて検討する。 RLは、特に結果に基づく報酬で訓練された場合、ルールベースのテキストと視覚的バリエーションの両方で一般化されることを示す。
論文参考訳（メタデータ） (2025-01-28T18:59:44Z)
RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning [53.8293458872774]
本稿では,RLDG(Reinforcement Learning Distilled Generalists)を提案する。我々は、RL生成データで訓練されたジェネラリストポリシーが、人間の実演で訓練された者より一貫して優れていたことを実証する。以上の結果から,タスク固有RLと一般政策蒸留を組み合わせることで,より有能で効率的なロボット操作システムの開発が期待できる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-13T04:57:55Z)
A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning [12.889687274108248]
Q-learningアルゴリズムは、視覚的な観察からトレーニングされた時に、不安定さを過度に調整し、訓練する傾向がある。そこで本研究では,より広範に拡張可能な一般化されたレシピであるSADAを提案する。提案手法は,RLエージェントのトレーニング安定性と一般化を,多種多様な拡張セットで大幅に向上させる。
論文参考訳（メタデータ） (2024-05-27T17:58:23Z)
IMEX-Reg: Implicit-Explicit Regularization in the Function Space for Continual Learning [17.236861687708096]
連続学習(CL)は、これまで獲得した知識の破滅的な忘れが原因で、ディープニューラルネットワークの長年にわたる課題の1つである。低バッファ状態下でのCLにおける経験リハーサルの一般化性能を改善するために,強い帰納バイアスを用いて人間がどのように学習するかに着想を得たIMEX-Regを提案する。
論文参考訳（メタデータ） (2024-04-28T12:25:09Z)
Sample Efficient Myopic Exploration Through Multitask Reinforcement Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文参考訳（メタデータ） (2024-03-03T22:57:44Z)
Efficient Training of Generalizable Visuomotor Policies via Control-Aware Augmentation [45.62430292728745]
既存のデータ拡張手法は、画像内のタスク関連情報を妨害し、性能を低下させる可能性がある。本稿では,既存の手法を改良した汎用型ビズモータポリシーのための効率的なトレーニングフレームワークを提案する。我々は,DMControl Generalization Benchmark,強化されたロボットマニピュレーション・ディトラクション・ベンチマーク,長期ドローダ・オープンタスクの3つの領域で実験を行った。
論文参考訳（メタデータ） (2024-01-17T15:05:00Z)
Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文参考訳（メタデータ） (2023-04-20T17:11:05Z)
Local Feature Swapping for Generalization in Reinforcement Learning [0.0]
特徴写像のチャネル一貫性のある局所置換(CLOP)からなる新しい正規化手法を導入する。提案手法は,空間的相関に頑健性をもたらし,強化学習における過度に適合する行動を防ぐのに役立つ。我々はOpenAI Procgen Benchmarkで、CLOP法で訓練されたRLエージェントが、視覚的変化に対する堅牢性と、より優れた一般化特性を示すことを示した。
論文参考訳（メタデータ） (2022-04-13T13:12:51Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability [92.95794652625496]
総合化は強化学習システムの展開における中心的な課題である。限られた訓練条件から検査条件を特定できないように一般化することは、暗黙的な部分観察可能性をもたらすことを示す。我々は、RLにおける一般化の問題を、部分的に観察されたマルコフ決定過程の解法として再考した。
論文参考訳（メタデータ） (2021-07-13T17:59:25Z)
Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文参考訳（メタデータ） (2021-07-01T17:58:05Z)
How to Make Deep RL Work in Practice [15.740760669623876]
最新のアルゴリズムの報告結果は、しばしば再現が困難である。デフォルトで使用するテクニックのどれを推奨し、RLに特化されたソリューションの恩恵を受ける可能性のある領域を強調します。
論文参考訳（メタデータ） (2020-10-25T10:37:54Z)
Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文参考訳（メタデータ） (2020-10-16T18:48:49Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。