論文の概要: Improving Generalization in Reinforcement Learning with Mixture
Regularization
- arxiv url: http://arxiv.org/abs/2010.10814v1
- Date: Wed, 21 Oct 2020 08:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 22:31:26.146264
- Title: Improving Generalization in Reinforcement Learning with Mixture
Regularization
- Title(参考訳): 混合正規化による強化学習の一般化
- Authors: Kaixin Wang, Bingyi Kang, Jie Shao, Jiashi Feng
- Abstract要約: そこで本研究では,異なるトレーニング環境からの観察を混合してエージェントを訓練する,mixregという簡単なアプローチを提案する。
Mixregはデータの多様性をより効果的に向上し、よりスムーズなポリシーを学ぶのに役立つ。
その結果、mixregは、未確認テスト環境において確立されたベースラインを大きなマージンで上回る結果となった。
- 参考スコア(独自算出の注目度): 113.12412071717078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) agents trained in a limited set of
environments tend to suffer overfitting and fail to generalize to unseen
testing environments. To improve their generalizability, data augmentation
approaches (e.g. cutout and random convolution) are previously explored to
increase the data diversity. However, we find these approaches only locally
perturb the observations regardless of the training environments, showing
limited effectiveness on enhancing the data diversity and the generalization
performance. In this work, we introduce a simple approach, named mixreg, which
trains agents on a mixture of observations from different training environments
and imposes linearity constraints on the observation interpolations and the
supervision (e.g. associated reward) interpolations. Mixreg increases the data
diversity more effectively and helps learn smoother policies. We verify its
effectiveness on improving generalization by conducting extensive experiments
on the large-scale Procgen benchmark. Results show mixreg outperforms the
well-established baselines on unseen testing environments by a large margin.
Mixreg is simple, effective and general. It can be applied to both policy-based
and value-based RL algorithms. Code is available at
https://github.com/kaixin96/mixreg .
- Abstract(参考訳): 限られた環境で訓練された深層強化学習(RL)エージェントは、過度に適合し、目に見えないテスト環境に一般化できない傾向にある。
一般化性を改善するため、データ拡張アプローチ(カットアウトやランダム畳み込みなど)はデータの多様性を高めるために以前から検討されてきた。
しかし,これらの手法は訓練環境によらず局部的にのみ観察を妨害し,データ多様性の向上と一般化性能の向上に限定的な効果を示した。
本研究では,異なる学習環境からの観察の混合にエージェントを訓練し,観察補間と監視(例えば,関連する報酬)補間に線形性制約を課す,mixregという簡単なアプローチを導入する。
Mixregはデータの多様性をより効果的に向上し、よりスムーズなポリシーを学ぶのに役立つ。
本稿では,大規模な Procgen ベンチマークで広範囲な実験を行うことにより,一般化の促進効果を検証する。
その結果、mixregは、未確認テスト環境において確立されたベースラインを大きなマージンで上回る結果となった。
Mixregはシンプルで効果的で汎用的です。
ポリシーベースのRLアルゴリズムとバリューベースのRLアルゴリズムの両方に適用できる。
コードはhttps://github.com/kaixin96/mixregで入手できる。
関連論文リスト
- Equivariant Data Augmentation for Generalization in Offline
Reinforcement Learning [10.00979536266327]
オフライン強化学習(RL)における一般化の課題に対処する新しいアプローチを提案する。
具体的には,エージェントのアウト・オブ・ディストリビューション目標への一般化能力の向上を目指す。
我々は、オフラインのオフラインRLアルゴリズムを用いて、拡張データセットに基づいて新しいポリシーをオフラインで学習する。
論文 参考訳(メタデータ) (2023-09-14T10:22:33Z) - Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。
本稿では,両経路の分岐点に位置する新しい手法を提案する。
我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。
より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文 参考訳(メタデータ) (2022-12-09T14:29:57Z) - FIXED: Frustratingly Easy Domain Generalization with Mixup [53.782029033068675]
ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。
一般的な戦略は、Mixupcitezhang 2018mixupのようなメソッドによる一般化のためにトレーニングデータを拡張することである。
我々は、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。
提案手法は,9つの最先端手法よりも優れており,試験精度の面では,ベースラインの平均6.5%を上回っている。
論文 参考訳(メタデータ) (2022-11-07T09:38:34Z) - C-Mixup: Improving Generalization in Regression [71.10418219781575]
混合アルゴリズムは、一対の例とその対応するラベルを線形補間することによって一般化を改善する。
ラベルの類似度に基づいてサンプリング確率を調整するC-Mixupを提案する。
C-Mixupは6.56%、4.76%、5.82%の改善、タスクの一般化、アウト・オブ・ディストリビューションの堅牢性を実現している。
論文 参考訳(メタデータ) (2022-10-11T20:39:38Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - Implicit Gradient Alignment in Distributed and Federated Learning [39.61762498388211]
分散学習とフェデレーション学習においてグローバル収束を達成するための大きな障害は、クライアント間の勾配の誤調整である。
更新毎に任意の大きなバッチを使用できるようにして,同じ暗黙の正規化を誘導する新しいGradAlignアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-25T22:01:35Z) - MixRL: Data Mixing Augmentation for Regression using Reinforcement
Learning [2.1345682889327837]
データ拡張のための既存のテクニックは、主に分類タスクに焦点を当てており、回帰タスクに簡単には適用できない。
その結果,大容量データとラベル距離の混合がモデル性能に悪影響を及ぼす可能性が示唆された。
そこで本研究では,データ拡張メタ学習フレームワークであるMixRLを提案する。
論文 参考訳(メタデータ) (2021-06-07T07:01:39Z) - k-Mixup Regularization for Deep Learning via Optimal Transport [32.951696405505686]
Mixupは、ディープニューラルネットワークをトレーニングするための一般的な正規化テクニックである。
emph$k$-mixupは、他の$k$-batchesの方向に、トレーニングポイントの$k$-batchesを摂動させる。
我々は、$k$-mixupによるトレーニングにより、複数のネットワークアーキテクチャにおける一般化と堅牢性がさらに向上することを示す。
論文 参考訳(メタデータ) (2021-06-05T17:08:08Z) - Co-Mixup: Saliency Guided Joint Mixup with Supermodular Diversity [15.780905917870427]
バッチ混成データに対する新たな視点を提案し, バッチ混成データの最適構築を定式化する。
また,各ミニバッチ毎に効率的な混合を行うために,効率的なモジュール近似に基づく反復的部分モジュラー計算アルゴリズムを提案する。
実験により, 提案手法は, 技術一般化, キャリブレーション, および弱教師付き局所化結果の状態を達成できることを示した。
論文 参考訳(メタデータ) (2021-02-05T09:12:02Z) - Unshuffling Data for Improved Generalization [65.57124325257409]
トレーニングディストリビューションを越えた一般化は、マシンラーニングにおける中核的な課題である。
本研究では,複数の学習環境として扱われる非d.d.サブセットにデータを分割することで,アウト・オブ・ディストリビューションの一般化を向上したモデル学習を導出できることを示す。
論文 参考訳(メタデータ) (2020-02-27T03:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。