論文の概要: A Robust Quantile Huber Loss With Interpretable Parameter Adjustment In
Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.02325v2
- Date: Sun, 7 Jan 2024 22:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 11:29:27.437494
- Title: A Robust Quantile Huber Loss With Interpretable Parameter Adjustment In
Distributional Reinforcement Learning
- Title(参考訳): 分布強化学習における解釈パラメータ調整によるロバスト量子ハマーの損失
- Authors: Parvin Malekzadeh, Konstantinos N. Plataniotis, Zissis Poulos, Zeyu
Wang
- Abstract要約: 本稿では、ワッサーシュタイン距離(WD)計算から導かれる一般化量子ハマー損失関数を提案する。
古典的な量子ハマー損失と比較して、この革新的な損失関数は外れ値に対する堅牢性を高める。
分散RLの一般的な応用であるアタリゲームに対する実証実験と、分布RLを用いた最近のヘッジ戦略により、提案した損失関数を検証した。
- 参考スコア(独自算出の注目度): 19.89141873890568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributional Reinforcement Learning (RL) estimates return distribution
mainly by learning quantile values via minimizing the quantile Huber loss
function, entailing a threshold parameter often selected heuristically or via
hyperparameter search, which may not generalize well and can be suboptimal.
This paper introduces a generalized quantile Huber loss function derived from
Wasserstein distance (WD) calculation between Gaussian distributions, capturing
noise in predicted (current) and target (Bellman-updated) quantile values.
Compared to the classical quantile Huber loss, this innovative loss function
enhances robustness against outliers. Notably, the classical Huber loss
function can be seen as an approximation of our proposed loss, enabling
parameter adjustment by approximating the amount of noise in the data during
the learning process. Empirical tests on Atari games, a common application in
distributional RL, and a recent hedging strategy using distributional RL,
validate the effectiveness of our proposed loss function and its potential for
parameter adjustments in distributional RL. The implementation of the proposed
loss function is available here.
- Abstract(参考訳): 分布強化学習(英語版) (rl) は、主に量子量的フーバー損失関数を最小化し、しばしばヒューリスティックに選択されるしきい値パラメータやハイパーパラメータ探索を伴って量子量的値を学習することで、帰納分布を推定する。
本稿では、ガウス分布間のワッサーシュタイン距離(WD)計算から導かれる一般化量子ハマー損失関数を導入し、予測(電流)と目標(ベルマン更新)量子化値のノイズを捕捉する。
古典的な量子ハマー損失と比較して、この革新的な損失関数は外れ値に対する堅牢性を高める。
特に、古典的なハマー損失関数は、提案した損失の近似と見なすことができ、学習過程におけるデータのノイズ量の近似によるパラメータ調整を可能にする。
分散RLの一般的な応用であるアタリゲームに対する実証実験と、分布RLを用いた最近のヘッジ戦略により、提案した損失関数の有効性と分布RLにおけるパラメータ調整の可能性を検証する。
提案する損失関数の実装はここで見ることができる。
関連論文リスト
- Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文 参考訳(メタデータ) (2024-03-12T14:49:19Z) - Robust Non-parametric Knowledge-based Diffusion Least Mean Squares over
Adaptive Networks [12.266804067030455]
提案アルゴリズムは, 協調推定器群における未知パラメータベクトルのロバストな推定に導かれる。
その結果,異なるノイズの種類が存在する場合,提案アルゴリズムのロバスト性を示す。
論文 参考訳(メタデータ) (2023-12-03T06:18:59Z) - Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient
Kernels [60.35011738807833]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は、ベンチマークODEとPDE発見タスクのリストにおいて、KBASSの顕著な利点を示す。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - A Jensen-Shannon Divergence Based Loss Function for Bayesian Neural
Networks [0.0]
幾何JSの発散に基づくBNNの新たな損失関数を定式化し、従来のKL発散に基づく損失関数が特別な場合であることを示す。
我々は、雑音の多いCIFARデータセットの分類において、最先端KL発散に基づくBNNの性能改善を示す。
論文 参考訳(メタデータ) (2022-09-23T01:47:09Z) - Statistical Properties of the log-cosh Loss Function Used in Machine
Learning [0.0]
本稿では,ログコッシュ損失が発生する分布関数について述べる。
また、量子レグレッションにlog-cosh関数を用いる方法についても検討する。
論文 参考訳(メタデータ) (2022-08-09T07:03:58Z) - How do noise tails impact on deep ReLU networks? [2.5889847253961418]
非パラメトリック回帰関数のクラスにおける最適収束速度が p, 滑らか度, 内在次元に依存することを示す。
我々はまた、深部ReLUニューラルネットワークの近似理論に関する新しい結果にも貢献する。
論文 参考訳(メタデータ) (2022-03-20T00:27:32Z) - Asymmetric Loss Functions for Learning with Noisy Labels [82.50250230688388]
そこで本研究では,様々なノイズに対する雑音ラベルによる学習に頑健な,新しい損失関数,すなわちテクスティタ対称損失関数を提案する。
ベンチマークデータセットの実験結果は、非対称損失関数が最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-06-06T12:52:48Z) - Sampling-free Variational Inference for Neural Networks with
Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。
提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文 参考訳(メタデータ) (2021-03-15T16:16:18Z) - Empirical Strategy for Stretching Probability Distribution in
Neural-network-based Regression [5.35308390309106]
ニューラルネットワーク下での回帰解析では、予測性能は層間の適切な重み決定に依存する。
両分布の重み付け面積を増大させる新しい損失関数として重み付き経験的ストレッチ(WES)を提案する。
極端な領域に対するRMSEの改良結果は、非線形複雑系における異常事象の予測に利用されることが期待されている。
論文 参考訳(メタデータ) (2020-09-08T06:08:14Z) - Approximation Schemes for ReLU Regression [80.33702497406632]
我々はReLU回帰の根本的な問題を考察する。
目的は、未知の分布から引き出された2乗損失に対して、最も適したReLUを出力することである。
論文 参考訳(メタデータ) (2020-05-26T16:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。