Fugu-MT 論文翻訳(概要): Robust Losses for Learning Value Functions

論文の概要: Robust Losses for Learning Value Functions

arxiv url: http://arxiv.org/abs/2205.08464v2
Date: Mon, 17 Apr 2023 21:33:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-19 19:01:43.318229
Title: Robust Losses for Learning Value Functions
Title（参考訳）: 学習値関数に対するロバスト損失
Authors: Andrew Patterson, Victor Liao, Martha White
Abstract要約: 強化学習におけるほとんどの値関数学習アルゴリズムは、平均2乗(投影)ベルマン誤差に基づいている。我々は、サドルポイント最適化問題として正方形ベルマン誤差を修正した最近の知見に基づいて構築する。オンラインのオフライン予測と制御設定の両方において、これらの損失を最小限に抑えるために、音の勾配に基づくアプローチを導出する。
参考スコア（独自算出の注目度）: 26.515147684526124
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most value function learning algorithms in reinforcement learning are based on the mean squared (projected) Bellman error. However, squared errors are known to be sensitive to outliers, both skewing the solution of the objective and resulting in high-magnitude and high-variance gradients. To control these high-magnitude updates, typical strategies in RL involve clipping gradients, clipping rewards, rescaling rewards, or clipping errors. While these strategies appear to be related to robust losses -- like the Huber loss -- they are built on semi-gradient update rules which do not minimize a known loss. In this work, we build on recent insights reformulating squared Bellman errors as a saddlepoint optimization problem and propose a saddlepoint reformulation for a Huber Bellman error and Absolute Bellman error. We start from a formalization of robust losses, then derive sound gradient-based approaches to minimize these losses in both the online off-policy prediction and control settings. We characterize the solutions of the robust losses, providing insight into the problem settings where the robust losses define notably better solutions than the mean squared Bellman error. Finally, we show that the resulting gradient-based algorithms are more stable, for both prediction and control, with less sensitivity to meta-parameters.
Abstract（参考訳）: 強化学習におけるほとんどの値関数学習アルゴリズムは平均二乗(投影)ベルマン誤差に基づいている。しかし、二乗誤差は外れ値に敏感であることが知られ、目的の解を歪め、高次勾配と高分散勾配をもたらす。これらの高次更新を制御するために、RLの典型的な戦略は、クリッピング勾配、クリッピング報酬、リスケーリング報酬、クリッピングエラーを含む。これらの戦略は、ハブ損失のような堅牢な損失に関連しているように見えるが、それらは、既知の損失を最小限にしない半段階的な更新ルールに基づいている。本研究では,二乗ベルマン誤差をサドルポイント最適化問題として再構成する最近の知見に基づいて,フーバーベルマン誤差と絶対ベルマン誤差に対するサドルポイント再構成を提案する。まず、ロバストな損失の形式化から始まり、オンラインのオフポリシー予測とコントロール設定の両方において、これらの損失を最小限に抑えるために、音勾配に基づくアプローチを導出します。我々は、ロバストな損失の解を特徴付け、ロバストな損失が平均2乗のベルマン誤差よりも明らかに優れた解を定義する問題設定に関する洞察を与える。最後に, 勾配に基づくアルゴリズムは, 予測と制御の両方においてより安定であり, メタパラメータに対する感度が低いことを示す。

関連論文リスト

LEARN: An Invex Loss for Outlier Oblivious Robust Online Optimization [56.67706781191521]
敵は、学習者に未知の任意の数kの損失関数を破損させることで、外れ値を導入することができる。我々は,任意の数kで損失関数を破損させることで,敵が外乱を発生させることができる,頑健なオンラインラウンド最適化フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-12T17:08:31Z)
The Role of Inherent Bellman Error in Offline Reinforcement Learning with Linear Function Approximation [29.69428894587431]
本稿では,線形関数近似を用いたオフラインRL問題について検討する。我々の構造的前提は、MDPはベルマン誤差が低いということである。我々は、$sqrtvarepsilon_mathrmBE$によるサブ最適性のスケーリングは、どんなアルゴリズムでも改善できないことを示した。
論文参考訳（メタデータ） (2024-06-17T16:04:06Z)
Symmetric Q-learning: Reducing Skewness of Bellman Error in Online Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文参考訳（メタデータ） (2024-03-12T14:49:19Z)
Alternate Loss Functions for Classification and Robust Regression Can Improve the Accuracy of Artificial Neural Networks [6.452225158891343]
本稿では,ニューラルネットワークのトレーニング速度と最終的な精度が,ニューラルネットワークのトレーニングに使用する損失関数に大きく依存することを示す。様々なベンチマークタスクの性能を著しく向上させる2つの新しい分類損失関数を提案する。
論文参考訳（メタデータ） (2023-03-17T12:52:06Z)
Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文参考訳（メタデータ） (2023-02-24T09:18:27Z)
When is Realizability Sufficient for Off-Policy Reinforcement Learning? [17.317841035807696]
我々は,所定の機能クラスに対してのみ実現可能性を持つ場合,非政治強化学習の統計的複雑さを分析する。ベルマン誤差と呼ばれる近似誤差項を含まない非政治強化学習の有限サンプル保証を確立する。
論文参考訳（メタデータ） (2022-11-10T03:15:31Z)
Do We Need to Penalize Variance of Losses for Learning with Label Noise? [91.38888889609002]
ノイズラベルを用いた学習では,差分を増大させる必要がある。ラベルノイズ遷移行列を利用することで、正規化器は損失の分散を低減することができる。実験的に,損失の分散を増大させることにより,合成データセットと実世界のデータセットのベースラインの一般化能力を大幅に向上させる。
論文参考訳（メタデータ） (2022-01-30T06:19:08Z)
Analysis and Optimisation of Bellman Residual Errors with Neural Function Approximation [0.0]
近年のDeep Reinforcement Learningは,大規模あるいは連続的な状態空間における課題解決において,ニューラルネットワークの優れた性能を実証している。 1つの具体的なアプローチは、Mean Squared Bellman Error関数を最小化することで、ニューラルネットワークを近似値にデプロイすることである。
論文参考訳（メタデータ） (2021-06-16T13:35:14Z)
A Generalized Projected Bellman Error for Off-policy Value Estimation in Reinforcement Learning [25.39784277231972]
線形 MSPBE を非線形設定に拡張する一般化 MSPBE を導入する。我々は、一般化された目的を最小化するために、使いやすいが、音のアルゴリズムを導出する。
論文参考訳（メタデータ） (2021-04-28T15:50:34Z)
Unbiased Risk Estimators Can Mislead: A Case Study of Learning with Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。勾配推定の品質はリスク最小化においてより重要であることを示す。本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文参考訳（メタデータ） (2020-07-05T04:19:37Z)
Learning Adaptive Loss for Robust Learning with Noisy Labels [59.06189240645958]
ロバスト損失は、堅牢な学習問題を扱うための重要な戦略である。本稿では,強靭なハイパーチューニングが可能なメタ学習手法を提案する。 4種類のSOTA損失関数は, 最小化, 一般利用, 有効性を示す。
論文参考訳（メタデータ） (2020-02-16T00:53:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。