論文の概要: Rectifying Regression in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.00885v1
- Date: Wed, 01 Oct 2025 13:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.584872
- Title: Rectifying Regression in Reinforcement Learning
- Title(参考訳): 強化学習における回帰の定式化
- Authors: Alex Ayoub, David Szepesvári, Alireza Baktiari, Csaba Szepesvári, Dale Schuurmans,
- Abstract要約: 平均絶対誤差は,学習方針の最適度差を制御するために,従来の平均二乗誤差よりもよい予測目標であることを示す。
異なる損失関数は、これらの異なる回帰目標とよりよく一致していることを示す。
- 参考スコア(独自算出の注目度): 51.28909745713678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the impact of the loss function in value-based methods for reinforcement learning through an analysis of underlying prediction objectives. We theoretically show that mean absolute error is a better prediction objective than the traditional mean squared error for controlling the learned policy's suboptimality gap. Furthermore, we present results that different loss functions are better aligned with these different regression objectives: binary and categorical cross-entropy losses with the mean absolute error and squared loss with the mean squared error. We then provide empirical evidence that algorithms minimizing these cross-entropy losses can outperform those based on the squared loss in linear reinforcement learning.
- Abstract(参考訳): 本稿では,評価対象の分析を通じて,値に基づく強化学習における損失関数の影響について検討する。
理論的には,平均絶対誤差は学習方針の最適度差を制御するための従来の平均二乗誤差よりもよい予測目標であることが示される。
さらに、各損失関数は、平均絶対誤差と平均二乗誤差の2進および2進のクロスエントロピー損失と、平均二乗誤差の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進の2進
次に, 線形強化学習における2乗損失に基づいて, クロスエントロピー損失を最小限に抑えるアルゴリズムが, 性能を向上できることを示す。
関連論文リスト
- A Comparative Study of Invariance-Aware Loss Functions for Deep Learning-based Gridless Direction-of-Arrival Estimation [19.100476521802243]
行列のスケーリングに不変な新たな損失関数を提案する。
スケール不変損失は、その非不変損失よりも優れるが、最近提案された部分空間損失よりも劣ることを示す。
論文 参考訳(メタデータ) (2025-03-16T07:15:16Z) - Of Dice and Games: A Theory of Generalized Boosting [61.752303337418475]
我々は、コスト感受性と多目的損失の両方を組み込むために、ブースティングの有名な理論を拡張した。
我々は、コスト感受性と多目的強化の包括的理論を開発し、弱い学習保証の分類を提供する。
我々の特徴付けは、昇降の幾何学的解釈に依存しており、コスト感受性と多目的損失の間の驚くべき等価性を明らかにしている。
論文 参考訳(メタデータ) (2024-12-11T01:38:32Z) - Learning Latent Graph Structures and their Uncertainty [63.95971478893842]
点予測損失の最小化は、潜時関係情報の適切な学習を保証するものではないことを示す。
本稿では,この共同学習課題を解決するサンプリングベース手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T10:49:22Z) - Investigating the Histogram Loss in Regression [16.83443393563771]
ヒストグラムロス(Histogram Loss)は、対象変数の条件分布を学習するための回帰手法である。
この設定における学習分布の利点は、余分な情報をモデル化するのではなく、最適化の改善によるものであることを示す。
論文 参考訳(メタデータ) (2024-02-20T23:29:41Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment
for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。
この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文 参考訳(メタデータ) (2023-10-07T09:15:08Z) - Regression as Classification: Influence of Task Formulation on Neural
Network Features [16.239708754973865]
ニューラルネットワークは、勾配に基づく手法を用いて2乗損失を最小限に抑えることにより、回帰問題を解決するために訓練することができる。
実践者は、しばしば回帰を分類問題として再編成し、クロスエントロピー損失のトレーニングがより良いパフォーマンスをもたらすことを観察する。
2層ReLUネットワークに着目して、勾配に基づく最適化によって引き起こされる暗黙のバイアスが、この現象を部分的に説明できるかを検討する。
論文 参考訳(メタデータ) (2022-11-10T15:13:23Z) - Gradient descent follows the regularization path for general losses [33.155195855431344]
任意の凸損失を持つ線形予測器上での実証的リスク最小化について,勾配降下経路とアルゴリズム非依存正規化経路は同じ方向に収束することを示す。
我々は、広く使われている指数関数的損失の正当化を提供する。
論文 参考訳(メタデータ) (2020-06-19T17:01:25Z) - On the Loss Landscape of Adversarial Training: Identifying Challenges
and How to Overcome Them [57.957466608543676]
機械学習モデルの損失景観に及ぼす対人訓練の影響を解析する。
曲率の増加と散乱勾配の増大により, 対向損失景観は最適化にはあまり好ましくないことを示す。
論文 参考訳(メタデータ) (2020-06-15T13:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。