論文の概要: Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.16379v2
- Date: Fri, 27 Oct 2023 10:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 18:08:50.626497
- Title: Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning
- Title(参考訳): 学習効率のよい視覚強化学習のための効果的な強化
- Authors: Guozheng Ma, Linrui Zhang, Haoyu Wang, Lu Li, Zilin Wang, Zhen Wang,
Li Shen, Xueqian Wang, Dacheng Tao
- Abstract要約: データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
- 参考スコア(独自算出の注目度): 57.83232242068982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation (DA) is a crucial technique for enhancing the sample
efficiency of visual reinforcement learning (RL) algorithms. Notably, employing
simple observation transformations alone can yield outstanding performance
without extra auxiliary representation tasks or pre-trained encoders. However,
it remains unclear which attributes of DA account for its effectiveness in
achieving sample-efficient visual RL. To investigate this issue and further
explore the potential of DA, this work conducts comprehensive experiments to
assess the impact of DA's attributes on its efficacy and provides the following
insights and improvements: (1) For individual DA operations, we reveal that
both ample spatial diversity and slight hardness are indispensable. Building on
this finding, we introduce Random PadResize (Rand PR), a new DA operation that
offers abundant spatial diversity with minimal hardness. (2) For multi-type DA
fusion schemes, the increased DA hardness and unstable data distribution result
in the current fusion schemes being unable to achieve higher sample efficiency
than their corresponding individual operations. Taking the non-stationary
nature of RL into account, we propose a RL-tailored multi-type DA fusion scheme
called Cycling Augmentation (CycAug), which performs periodic cycles of
different DA operations to increase type diversity while maintaining data
distribution consistency. Extensive evaluations on the DeepMind Control suite
and CARLA driving simulator demonstrate that our methods achieve superior
sample efficiency compared with the prior state-of-the-art methods.
- Abstract(参考訳): データ拡張(da)は、視覚強化学習(rl)アルゴリズムのサンプル効率を向上させるための重要な技術である。
特に、単純な観察変換のみを用いると、追加の補助的な表現タスクや事前訓練されたエンコーダなしで優れた性能が得られる。
しかし, サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は, この課題を解明し, DAの可能性を探るため, DAの属性が有効性に与える影響を評価するための総合的な実験を行い, 個々のDA操作において, 空間的多様性とわずかな硬さの両方が不可欠であることを明らかにする。
そこで,本研究ではランダムパドレサイズ (rand pr) を提案する。
2) 多種類のDA融合スキームでは,DA硬度の増加と不安定なデータ分布により,現在の融合スキームは個々の操作よりも高いサンプリング効率を達成できない。
RLの非定常的な性質を考慮に入れ,データ分散の整合性を維持しつつ,異なるDA操作の周期サイクルを実行し,型多様性を向上させるRL調整型多型DA融合スキーム(CycAug)を提案する。
DeepMind Control スイートと CARLA 駆動シミュレータの広範囲な評価により,本手法が従来の最先端手法に比べて優れたサンプル効率を実現することが示された。
関連論文リスト
- EntAugment: Entropy-Driven Adaptive Data Augmentation Framework for Image Classification [10.334396596691048]
チューニング不要かつ適応的なDAフレームワークであるEntAugmentを提案する。
トレーニング中の各サンプルの増大度を動的に評価し、調整する。
また、EntAugmentアプローチを補完する新しいエントロピー正規化項EntLossを導入する。
論文 参考訳(メタデータ) (2024-09-10T07:42:47Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z) - Seeking Visual Discomfort: Curiosity-driven Representations for
Reinforcement Learning [12.829056201510994]
状態表現学習におけるサンプルの多様性向上のためのアプローチを提案する。
提案手法は,問題状態の訪問を促進し,学習状態の表現を改善し,全てのテスト環境のベースラインを向上する。
論文 参考訳(メタデータ) (2021-10-02T11:15:04Z) - Making Curiosity Explicit in Vision-based RL [12.829056201510994]
視覚に基づく強化学習(RL)は、画像を主観察対象とする制御課題を解決するための有望な手法である。
最先端のRLアルゴリズムは、まだサンプル効率の面で苦戦している。
サンプルの多様性を改善するためのアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-28T09:50:37Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Generalization in Reinforcement Learning by Soft Data Augmentation [11.752595047069505]
SODA(Soft Data Augmentation)は、政策学習からAugmentationを分離する手法である。
我々は、最先端のビジョンベースRL法によるトレーニングにおいて、サンプル効率、一般化、安定性を著しく向上するSODAを見出した。
論文 参考訳(メタデータ) (2020-11-26T17:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。