論文の概要: An Equivalence between Loss Functions and Non-Uniform Sampling in
Experience Replay
- arxiv url: http://arxiv.org/abs/2007.06049v2
- Date: Thu, 22 Oct 2020 16:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 05:19:33.973011
- Title: An Equivalence between Loss Functions and Non-Uniform Sampling in
Experience Replay
- Title(参考訳): 経験リプレイにおける損失関数と非一様サンプリングの等価性
- Authors: Scott Fujimoto, David Meger, Doina Precup
- Abstract要約: 非一様サンプルデータを用いて評価された損失関数は、別の一様サンプルデータ損失関数に変換可能であることを示す。
驚いたことに、いくつかの環境では、PERは経験的パフォーマンスに影響を与えることなく、この新たな損失関数に完全に置き換えることができる。
- 参考スコア(独自算出の注目度): 72.23433407017558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prioritized Experience Replay (PER) is a deep reinforcement learning
technique in which agents learn from transitions sampled with non-uniform
probability proportionate to their temporal-difference error. We show that any
loss function evaluated with non-uniformly sampled data can be transformed into
another uniformly sampled loss function with the same expected gradient.
Surprisingly, we find in some environments PER can be replaced entirely by this
new loss function without impact to empirical performance. Furthermore, this
relationship suggests a new branch of improvements to PER by correcting its
uniformly sampled loss function equivalent. We demonstrate the effectiveness of
our proposed modifications to PER and the equivalent loss function in several
MuJoCo and Atari environments.
- Abstract(参考訳): priorityd experience replay (per) は、時間差誤差に比例する非一様確率でサンプリングされた遷移からエージェントが学習する深い強化学習手法である。
非一様サンプリングデータで評価された損失関数は、同じ勾配で一様サンプリングされた損失関数に変換可能であることを示す。
驚いたことに、いくつかの環境ではPERを完全に新しい損失関数に置き換えることができる。
さらに、この関係は、一様にサンプリングされた損失関数の等価性を補正することでPERの新たな改善点を示唆している。
いくつかのMuJoCoおよびAtari環境におけるPERに対する修正の有効性と損失関数の等価性を示す。
関連論文リスト
- Unraveling the Hessian: A Key to Smooth Convergence in Loss Function Landscapes [0.0]
我々は、完全に連結されたニューラルネットワークにおける損失景観の収束を理論的に解析し、新しいオブジェクトをサンプルに追加する際の損失関数値の差について上限を導出する。
画像分類作業における損失関数面の収束を実証し,これらの結果を様々なデータセットで検証した。
論文 参考訳(メタデータ) (2024-09-18T14:04:15Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Alternate Loss Functions for Classification and Robust Regression Can Improve the Accuracy of Artificial Neural Networks [6.452225158891343]
本稿では,ニューラルネットワークのトレーニング速度と最終的な精度が,ニューラルネットワークのトレーニングに使用する損失関数に大きく依存することを示す。
様々なベンチマークタスクの性能を著しく向上させる2つの新しい分類損失関数を提案する。
論文 参考訳(メタデータ) (2023-03-17T12:52:06Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Learning Compact Features via In-Training Representation Alignment [19.273120635948363]
各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。
In-Training Representation Alignment (ITRA) を提案する。
また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
論文 参考訳(メタデータ) (2022-11-23T22:23:22Z) - A Fair Loss Function for Network Pruning [70.35230425589592]
本稿では, 刈り込み時のバイアスの抑制に使用できる簡易な改良型クロスエントロピー損失関数である, 性能重み付き損失関数を提案する。
CelebA、Fitzpatrick17k、CIFAR-10データセットを用いた実験は、提案手法が単純で効果的なツールであることを実証している。
論文 参考訳(メタデータ) (2022-11-18T15:17:28Z) - The Fisher-Rao Loss for Learning under Label Noise [9.238700679836855]
離散分布の統計多様体におけるフィッシャー・ラオ距離から生じるフィッシャー・ラオ損失関数について検討する。
ラベルノイズの存在下での性能劣化の上限を導出し,この損失の学習速度を解析する。
論文 参考訳(メタデータ) (2022-10-28T20:50:10Z) - Center Prediction Loss for Re-identification [65.58923413172886]
我々は, 中心予測率に基づく新たな損失, すなわち, 試料が特徴空間の位置に位置しなければならず, そこから同一クラス標本の中心の位置を大まかに予測できることを示す。
今回の新たな損失により,クラス間サンプルの分離性が向上しつつ,クラス内分散制約がより柔軟になることを示す。
論文 参考訳(メタデータ) (2021-04-30T03:57:31Z) - Reducing Representation Drift in Online Continual Learning [87.71558506591937]
私たちは、エージェントが制限されたメモリと計算で変化する分布から学ぶ必要があるオンライン連続学習パラダイムを研究します。
この作業では、入ってくるデータストリームに未観測のクラスサンプルが導入されることにより、事前に観測されたデータの表現の変化に焦点を合わせます。
論文 参考訳(メタデータ) (2021-04-11T15:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。