論文の概要: Prioritized Generative Replay
- arxiv url: http://arxiv.org/abs/2410.18082v1
- Date: Wed, 23 Oct 2024 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:14.611591
- Title: Prioritized Generative Replay
- Title(参考訳): 優先順位付けされた生成リプレイ
- Authors: Renhao Wang, Kevin Frans, Pieter Abbeel, Sergey Levine, Alexei A. Efros,
- Abstract要約: 本稿では,オンライン体験を再現する生成モデルを用いて,エージェントのメモリの優先的でパラメトリックなバージョンを提案する。
このパラダイムは、生成モデルの一般化能力の恩恵を受ける新しい世代と共に、過去の経験の密度化を可能にする。
このレシピは条件付き拡散モデルと単純な関連関数を用いてインスタンス化できることを示す。
- 参考スコア(独自算出の注目度): 121.83947140497655
- License:
- Abstract: Sample-efficient online reinforcement learning often uses replay buffers to store experience for reuse when updating the value function. However, uniform replay is inefficient, since certain classes of transitions can be more relevant to learning. While prioritization of more useful samples is helpful, this strategy can also lead to overfitting, as useful samples are likely to be more rare. In this work, we instead propose a prioritized, parametric version of an agent's memory, using generative models to capture online experience. This paradigm enables (1) densification of past experience, with new generations that benefit from the generative model's generalization capacity and (2) guidance via a family of "relevance functions" that push these generations towards more useful parts of an agent's acquired history. We show this recipe can be instantiated using conditional diffusion models and simple relevance functions such as curiosity- or value-based metrics. Our approach consistently improves performance and sample efficiency in both state- and pixel-based domains. We expose the mechanisms underlying these gains, showing how guidance promotes diversity in our generated transitions and reduces overfitting. We also showcase how our approach can train policies with even higher update-to-data ratios than before, opening up avenues to better scale online RL agents.
- Abstract(参考訳): サンプル効率のよいオンライン強化学習は、しばしばリプレイバッファを使用して、値関数を更新する際の再利用エクスペリエンスを保存する。
しかし、ある種の遷移のクラスは学習に関連があるため、均一なリプレイは非効率である。
より有用なサンプルの優先順位付けは有用であるが、有用なサンプルがより稀になるため、この戦略は過度な適合につながる可能性がある。
そこで本研究では,オンライン体験を再現する生成モデルを用いて,エージェントのメモリの優先的でパラメトリックなバージョンを提案する。
このパラダイムは、(1)生成モデルの一般化能力の恩恵を受ける新世代と、(2)これらの世代をエージェントが獲得した履歴のより有用な部分へと押し上げる「関連関数」のファミリーによるガイダンスにより、過去の経験の密度化を可能にする。
このレシピは条件付き拡散モデルと好奇心や値に基づくメトリクスのような単純な関連関数を用いてインスタンス化できることを示す。
我々のアプローチは、状態とピクセルベースの両方の領域における性能とサンプル効率を一貫して改善する。
これらの利益の基盤となるメカニズムを公開し、ガイダンスが生成した遷移の多様性をいかに促進し、過度な適合を減らすかを示す。
我々はまた、我々のアプローチが以前よりも高い更新とデータの比率でポリシーをトレーニングし、オンラインのRLエージェントをより良くスケールするための道を開きます。
関連論文リスト
- Continual Offline Reinforcement Learning via Diffusion-based Dual Generative Replay [16.269591842495892]
本研究では, 逐次的オフラインタスクに取り組むために, 前方転送を容易にし, 破滅的な忘れを緩和する実践的パラダイムについて検討する。
本稿では,生成した擬似データの同時再生により,過去の知識を保持できる2つの生成再生フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-16T15:39:11Z) - Class incremental learning with probability dampening and cascaded gated classifier [4.285597067389559]
本稿では, Margin Dampening と Cascaded Scaling という新たな漸進正規化手法を提案する。
1つ目は、ソフト制約と知識蒸留のアプローチを組み合わせて、過去の知識を保存し、新しいパターンを忘れることを可能にします。
提案手法は,複数のベンチマークにおいて,確立されたベースラインで良好に動作することを示す。
論文 参考訳(メタデータ) (2024-02-02T09:33:07Z) - Continual Learning with Strong Experience Replay [32.154995019080594]
SER(Strong Experience Replay)を用いたCL法を提案する。
SERは、メモリバッファから過去の経験を蒸留する以外に、現在のトレーニングデータに模倣された将来の経験を利用する。
複数の画像分類データセットによる実験結果から,SER法が最先端の手法をはるかに上回ることがわかった。
論文 参考訳(メタデータ) (2023-05-23T02:42:54Z) - Understanding the effect of varying amounts of replay per step [0.0]
本研究では,マウンテンカー環境におけるDQN(Deep Q-Network)というモデルフリーアルゴリズムにおいて,各ステップごとの様々なリプレイの効果について検討する。
論文 参考訳(メタデータ) (2023-02-20T20:54:11Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Reducing Representation Drift in Online Continual Learning [87.71558506591937]
私たちは、エージェントが制限されたメモリと計算で変化する分布から学ぶ必要があるオンライン連続学習パラダイムを研究します。
この作業では、入ってくるデータストリームに未観測のクラスサンプルが導入されることにより、事前に観測されたデータの表現の変化に焦点を合わせます。
論文 参考訳(メタデータ) (2021-04-11T15:19:30Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。