論文の概要: Prioritizing Samples in Reinforcement Learning with Reducible Loss
- arxiv url: http://arxiv.org/abs/2208.10483v3
- Date: Wed, 1 Nov 2023 15:06:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 18:31:17.718545
- Title: Prioritizing Samples in Reinforcement Learning with Reducible Loss
- Title(参考訳): 還元損失のある強化学習におけるサンプルの優先順位付け
- Authors: Shivakanth Sujit, Somjit Nath, Pedro H. M. Braga, Samira Ebrahimi
Kahou
- Abstract要約: サンプルから学べる量に基づいて,サンプルを優先順位付けする手法を提案する。
学習能力の高いサンプルを優先するアルゴリズムを開発し,学習が難しいものに優先度を低く割り当てる。
- 参考スコア(独自算出の注目度): 5.901819658403315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most reinforcement learning algorithms take advantage of an experience replay
buffer to repeatedly train on samples the agent has observed in the past. Not
all samples carry the same amount of significance and simply assigning equal
importance to each of the samples is a na\"ive strategy. In this paper, we
propose a method to prioritize samples based on how much we can learn from a
sample. We define the learn-ability of a sample as the steady decrease of the
training loss associated with this sample over time. We develop an algorithm to
prioritize samples with high learn-ability, while assigning lower priority to
those that are hard-to-learn, typically caused by noise or stochasticity. We
empirically show that our method is more robust than random sampling and also
better than just prioritizing with respect to the training loss, i.e. the
temporal difference loss, which is used in prioritized experience replay.
- Abstract(参考訳): ほとんどの強化学習アルゴリズムは、経験的再生バッファを利用して、エージェントが過去に観察したサンプルを繰り返しトレーニングする。
すべてのサンプルが同じ意味を持ち、各サンプルに同じ重要性を割り当てるだけでは、na\" 戦略であるとは限らない。
本稿では,サンプルから学べる量に基づいて,サンプルを優先順位付けする手法を提案する。
サンプルの学習能力は、このサンプルに関連するトレーニング損失が経時的に着実に減少することと定義する。
学習能力の高いサンプルを優先するアルゴリズムを開発し,ノイズや確率によって引き起こされる難易度の高いサンプルに低い優先度を割り当てる。
実験により,本手法はランダムサンプリングよりも頑健であり,トレーニング損失,すなわち,優先経験の再生に使用される時間差損失に対する優先順位付けよりも優れていることが示された。
関連論文リスト
- Watch Your Step: Optimal Retrieval for Continual Learning at Scale [1.7265013728931]
連続学習では、モデルは古いタスクと新しいタスクの間の干渉を最小限にしながら、時間とともに漸進的に学習する。
継続的学習における最も広く使われているアプローチの1つは、リプレイと呼ばれる。
本稿では,単純で独立したクラス選択型プリミティブとサンプル選択型プリミティブによって分類された選択的検索戦略を評価するためのフレームワークを提案する。
本稿では,重複したリプレイを防止し,損失値の低い新しいサンプルをリプレイなしで学習できるかどうかを探索する戦略を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:35:35Z) - Which Pretrain Samples to Rehearse when Finetuning Pretrained Models? [60.59376487151964]
特定のタスクに関する微調整済みモデルが、テキストとビジョンタスクの事実上のアプローチになった。
このアプローチの落とし穴は、微調整中に起こる事前学習の知識を忘れることである。
本研究では,実際に忘れられているサンプルを識別・優先順位付けする新しいサンプリング手法であるmix-cdを提案する。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Data Pruning via Moving-one-Sample-out [61.45441981346064]
我々は移動1サンプルアウト(MoSo)と呼ばれる新しいデータ処理手法を提案する。
MoSoは、トレーニングセットから最も分かりにくいサンプルを特定し、削除することを目的としている。
実験結果から,MoSoは高プルーニング比で高い性能劣化を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2023-10-23T08:00:03Z) - DiscrimLoss: A Universal Loss for Hard Samples and Incorrect Samples
Discrimination [28.599571524763785]
ラベルノイズ(すなわち不正なデータ)が与えられた場合、ディープニューラルネットワークはラベルノイズとモデル性能を徐々に記憶する。
この問題を解消するために,カリキュラム学習を提案し,学習サンプルを有意義な順序で順序付けすることで,モデル性能と一般化を向上させる。
論文 参考訳(メタデータ) (2022-08-21T13:38:55Z) - An analysis of over-sampling labeled data in semi-supervised learning
with FixMatch [66.34968300128631]
ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。
本稿では,この実践が学習と方法を改善するかどうかを考察する。
ラベル付けの有無に関わらず、トレーニングデータから各ミニバッチを均一にサンプリングする別の設定と比較する。
論文 参考訳(メタデータ) (2022-01-03T12:22:26Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Robust Sampling in Deep Learning [62.997667081978825]
ディープラーニングは、オーバーフィッティングを減らし、一般化を改善するために正規化メカニズムを必要とする。
分散ロバスト最適化に基づく新しい正規化手法によりこの問題に対処する。
トレーニング中は、最悪のサンプルが最適化に最も貢献するものであるように、その正確性に応じてサンプルの選択が行われる。
論文 参考訳(メタデータ) (2020-06-04T09:46:52Z) - Minority Class Oversampling for Tabular Data with Deep Generative Models [4.976007156860967]
オーバーサンプリングによる非バランスな分類タスクの性能向上を図るために, 深層生成モデルを用いて現実的なサンプルを提供する能力について検討した。
実験の結果,サンプリング手法は品質に影響を与えないが,実行環境は様々であることがわかった。
また、性能指標の点でも改善が重要であるが、絶対的な点では小さな点がしばしば見られる。
論文 参考訳(メタデータ) (2020-05-07T21:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。