論文の概要: Prioritizing Samples in Reinforcement Learning with Reducible Loss
- arxiv url: http://arxiv.org/abs/2208.10483v1
- Date: Mon, 22 Aug 2022 17:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 12:36:36.551479
- Title: Prioritizing Samples in Reinforcement Learning with Reducible Loss
- Title(参考訳): 還元損失のある強化学習におけるサンプルの優先順位付け
- Authors: Shivakanth Sujit, Somjit Nath, Pedro H. M. Braga, Samira Ebrahimi
Kahou
- Abstract要約: サンプルから学べる量に基づいて,サンプルを優先順位付けする手法を提案する。
学習能力の高いサンプルを優先順位付けするアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 6.470121358556954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most reinforcement learning algorithms take advantage of an experience replay
buffer to repeatedly train on samples the agent has observed in the past. This
prevents catastrophic forgetting, however simply assigning equal importance to
each of the samples is a naive strategy. In this paper, we propose a method to
prioritize samples based on how much we can learn from a sample. We define the
learn-ability of a sample as the steady decrease of the training loss
associated with this sample over time. We develop an algorithm to prioritize
samples with high learn-ability, while assigning lower priority to those that
are hard-to-learn, typically caused by noise or stochasticity. We empirically
show that our method is more robust than random sampling and also better than
just prioritizing with respect to the training loss, i.e. the temporal
difference loss, which is used in vanilla prioritized experience replay.
- Abstract(参考訳): ほとんどの強化学習アルゴリズムは、経験的再生バッファを利用して、エージェントが過去に観察したサンプルを繰り返しトレーニングする。
これは破滅的な忘れを防げるが、それぞれのサンプルに同じ重要性を割り当てることは単純な戦略である。
本稿では,サンプルから学べる量に基づいて,サンプルを優先順位付けする手法を提案する。
サンプルの学習能力は、このサンプルに関連するトレーニング損失が経時的に着実に減少することと定義する。
学習能力の高いサンプルを優先するアルゴリズムを開発し,ノイズや確率によって引き起こされる難易度の高いサンプルに低い優先度を割り当てる。
実験により,本手法はランダムサンプリングよりも頑健であり,トレーニング損失,すなわちバニラ優先経験再生で使用される時間差損失に対して,単に優先順位付けするよりも優れていることが示された。
関連論文リスト
- Non-Uniform Memory Sampling in Experience Replay [1.9580473532948401]
破滅的な忘れを和らげるための一般的な戦略は、経験的なリプレイである。
ほとんどのアプローチでは、このバッファからのサンプリングはデフォルトで一様であると仮定する。
我々は試験毎に50種類の非一様サンプリング確率重みを生成し、最終的な精度を一様サンプリング基準値と比較する。
論文 参考訳(メタデータ) (2025-02-16T23:04:16Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Data Pruning via Moving-one-Sample-out [61.45441981346064]
我々は移動1サンプルアウト(MoSo)と呼ばれる新しいデータ処理手法を提案する。
MoSoは、トレーニングセットから最も分かりにくいサンプルを特定し、削除することを目的としている。
実験結果から,MoSoは高プルーニング比で高い性能劣化を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2023-10-23T08:00:03Z) - DiscrimLoss: A Universal Loss for Hard Samples and Incorrect Samples
Discrimination [28.599571524763785]
ラベルノイズ(すなわち不正なデータ)が与えられた場合、ディープニューラルネットワークはラベルノイズとモデル性能を徐々に記憶する。
この問題を解消するために,カリキュラム学習を提案し,学習サンプルを有意義な順序で順序付けすることで,モデル性能と一般化を向上させる。
論文 参考訳(メタデータ) (2022-08-21T13:38:55Z) - An analysis of over-sampling labeled data in semi-supervised learning
with FixMatch [66.34968300128631]
ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。
本稿では,この実践が学習と方法を改善するかどうかを考察する。
ラベル付けの有無に関わらず、トレーニングデータから各ミニバッチを均一にサンプリングする別の設定と比較する。
論文 参考訳(メタデータ) (2022-01-03T12:22:26Z) - Rethinking Sampling Strategies for Unsupervised Person Re-identification [59.47536050785886]
我々は,同じフレームワーク下での各種サンプリング戦略と損失関数のパフォーマンス差の理由を解析した。
グループサンプリングを提案し、同じクラスのサンプルをグループに集める。
Market-1501、DukeMTMC-reID、MSMT17の実験は、グループサンプリングが最先端の手法に匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-07T05:39:58Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Robust Sampling in Deep Learning [62.997667081978825]
ディープラーニングは、オーバーフィッティングを減らし、一般化を改善するために正規化メカニズムを必要とする。
分散ロバスト最適化に基づく新しい正規化手法によりこの問題に対処する。
トレーニング中は、最悪のサンプルが最適化に最も貢献するものであるように、その正確性に応じてサンプルの選択が行われる。
論文 参考訳(メタデータ) (2020-06-04T09:46:52Z) - Minority Class Oversampling for Tabular Data with Deep Generative Models [4.976007156860967]
オーバーサンプリングによる非バランスな分類タスクの性能向上を図るために, 深層生成モデルを用いて現実的なサンプルを提供する能力について検討した。
実験の結果,サンプリング手法は品質に影響を与えないが,実行環境は様々であることがわかった。
また、性能指標の点でも改善が重要であるが、絶対的な点では小さな点がしばしば見られる。
論文 参考訳(メタデータ) (2020-05-07T21:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。