Fugu-MT 論文翻訳(概要): An Equivalence between Loss Functions and Non-Uniform Sampling in Experience Replay

論文の概要: An Equivalence between Loss Functions and Non-Uniform Sampling in Experience Replay

arxiv url: http://arxiv.org/abs/2007.06049v2
Date: Thu, 22 Oct 2020 16:36:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-11 05:19:33.973011
Title: An Equivalence between Loss Functions and Non-Uniform Sampling in Experience Replay
Title（参考訳）: 経験リプレイにおける損失関数と非一様サンプリングの等価性
Authors: Scott Fujimoto, David Meger, Doina Precup
Abstract要約: 非一様サンプルデータを用いて評価された損失関数は、別の一様サンプルデータ損失関数に変換可能であることを示す。驚いたことに、いくつかの環境では、PERは経験的パフォーマンスに影響を与えることなく、この新たな損失関数に完全に置き換えることができる。
参考スコア（独自算出の注目度）: 72.23433407017558
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prioritized Experience Replay (PER) is a deep reinforcement learning technique in which agents learn from transitions sampled with non-uniform probability proportionate to their temporal-difference error. We show that any loss function evaluated with non-uniformly sampled data can be transformed into another uniformly sampled loss function with the same expected gradient. Surprisingly, we find in some environments PER can be replaced entirely by this new loss function without impact to empirical performance. Furthermore, this relationship suggests a new branch of improvements to PER by correcting its uniformly sampled loss function equivalent. We demonstrate the effectiveness of our proposed modifications to PER and the equivalent loss function in several MuJoCo and Atari environments.
Abstract（参考訳）: priorityd experience replay (per) は、時間差誤差に比例する非一様確率でサンプリングされた遷移からエージェントが学習する深い強化学習手法である。非一様サンプリングデータで評価された損失関数は、同じ勾配で一様サンプリングされた損失関数に変換可能であることを示す。驚いたことに、いくつかの環境ではPERを完全に新しい損失関数に置き換えることができる。さらに、この関係は、一様にサンプリングされた損失関数の等価性を補正することでPERの新たな改善点を示唆している。いくつかのMuJoCoおよびAtari環境におけるPERに対する修正の有効性と損失関数の等価性を示す。

関連論文リスト

A Versatile Influence Function for Data Attribution with Non-Decomposable Loss [3.1615846013409925]
本稿では,非分解不能な損失を学習した機械学習モデルに対して,直接適用可能なVersatile Influence Function (VIF)を提案する。 VIFはデータ属性の大幅な進歩を表しており、幅広い機械学習パラダイムにまたがる効率的な影響関数ベースの属性を可能にする。
論文参考訳（メタデータ） (2024-12-02T09:59:01Z)
Unraveling the Hessian: A Key to Smooth Convergence in Loss Function Landscapes [0.0]
我々は、完全に連結されたニューラルネットワークにおける損失景観の収束を理論的に解析し、新しいオブジェクトをサンプルに追加する際の損失関数値の差について上限を導出する。画像分類作業における損失関数面の収束を実証し,これらの結果を様々なデータセットで検証した。
論文参考訳（メタデータ） (2024-09-18T14:04:15Z)
Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文参考訳（メタデータ） (2024-01-12T12:51:12Z)
Alternate Loss Functions for Classification and Robust Regression Can Improve the Accuracy of Artificial Neural Networks [6.452225158891343]
本稿では,ニューラルネットワークのトレーニング速度と最終的な精度が,ニューラルネットワークのトレーニングに使用する損失関数に大きく依存することを示す。様々なベンチマークタスクの性能を著しく向上させる2つの新しい分類損失関数を提案する。
論文参考訳（メタデータ） (2023-03-17T12:52:06Z)
Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T14:49:59Z)
Learning Compact Features via In-Training Representation Alignment [19.273120635948363]
各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。 In-Training Representation Alignment (ITRA) を提案する。また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
論文参考訳（メタデータ） (2022-11-23T22:23:22Z)
A Fair Loss Function for Network Pruning [70.35230425589592]
本稿では, 刈り込み時のバイアスの抑制に使用できる簡易な改良型クロスエントロピー損失関数である, 性能重み付き損失関数を提案する。 CelebA、Fitzpatrick17k、CIFAR-10データセットを用いた実験は、提案手法が単純で効果的なツールであることを実証している。
論文参考訳（メタデータ） (2022-11-18T15:17:28Z)
The Fisher-Rao Loss for Learning under Label Noise [9.238700679836855]
離散分布の統計多様体におけるフィッシャー・ラオ距離から生じるフィッシャー・ラオ損失関数について検討する。ラベルノイズの存在下での性能劣化の上限を導出し,この損失の学習速度を解析する。
論文参考訳（メタデータ） (2022-10-28T20:50:10Z)
Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文参考訳（メタデータ） (2021-09-12T23:14:06Z)
Center Prediction Loss for Re-identification [65.58923413172886]
我々は, 中心予測率に基づく新たな損失, すなわち, 試料が特徴空間の位置に位置しなければならず, そこから同一クラス標本の中心の位置を大まかに予測できることを示す。今回の新たな損失により,クラス間サンプルの分離性が向上しつつ,クラス内分散制約がより柔軟になることを示す。
論文参考訳（メタデータ） (2021-04-30T03:57:31Z)
Reducing Representation Drift in Online Continual Learning [87.71558506591937]
私たちは、エージェントが制限されたメモリと計算で変化する分布から学ぶ必要があるオンライン連続学習パラダイムを研究します。この作業では、入ってくるデータストリームに未観測のクラスサンプルが導入されることにより、事前に観測されたデータの表現の変化に焦点を合わせます。
論文参考訳（メタデータ） (2021-04-11T15:19:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。