論文の概要: The Central Role of the Loss Function in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.12799v2
- Date: Mon, 4 Nov 2024 13:30:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 13:23:33.525700
- Title: The Central Role of the Loss Function in Reinforcement Learning
- Title(参考訳): 強化学習における損失関数の中心的役割
- Authors: Kaiwen Wang, Nathan Kallus, Wen Sun,
- Abstract要約: 回帰損失関数の違いが値に基づく意思決定アルゴリズムのサンプル効率と適応性に与える影響を実証する。
複数の設定にまたがって、バイナリクロスエントロピー損失を用いたアルゴリズムが、最適ポリシーのコストで1次境界スケーリングを実現することを証明した。
本論文は, 種々の損失関数を持つ意思決定アルゴリズムのガイドとして機能し, 読者により良い損失関数を求め, 任意の意思決定アルゴリズムを改善することを期待する。
- 参考スコア(独自算出の注目度): 46.72524235085568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper illustrates the central role of loss functions in data-driven decision making, providing a comprehensive survey on their influence in cost-sensitive classification (CSC) and reinforcement learning (RL). We demonstrate how different regression loss functions affect the sample efficiency and adaptivity of value-based decision making algorithms. Across multiple settings, we prove that algorithms using the binary cross-entropy loss achieve first-order bounds scaling with the optimal policy's cost and are much more efficient than the commonly used squared loss. Moreover, we prove that distributional algorithms using the maximum likelihood loss achieve second-order bounds scaling with the policy variance and are even sharper than first-order bounds. This in particular proves the benefits of distributional RL. We hope that this paper serves as a guide analyzing decision making algorithms with varying loss functions, and can inspire the reader to seek out better loss functions to improve any decision making algorithm.
- Abstract(参考訳): 本稿では,データ駆動意思決定における損失関数の中枢的役割を概説し,コストセンシティブな分類(CSC)と強化学習(RL)への影響を包括的に調査する。
回帰損失関数の違いが値に基づく意思決定アルゴリズムのサンプル効率と適応性に与える影響を実証する。
複数の設定において、二項クロスエントロピー損失を用いたアルゴリズムが最適ポリシのコストで1次境界スケーリングを実現し、一般的に使用される2乗損失よりもはるかに効率的であることを示す。
さらに、最大極大損失を用いた分布アルゴリズムは、ポリシー分散による2階境界スケーリングを実現し、一階境界よりもさらにシャープであることを示す。
これは特に分布RLの利点を証明している。
本論文は, 種々の損失関数を持つ意思決定アルゴリズムのガイドとして機能し, 読者により良い損失関数を求め, 任意の意思決定アルゴリズムを改善することを期待する。
関連論文リスト
- Provably Efficient Learning in Partially Observable Contextual Bandit [4.910658441596583]
古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Xtreme Margin: A Tunable Loss Function for Binary Classification
Problems [0.0]
本稿では,新しい損失関数 Xtreme Margin の損失関数について概説する。
二進的クロスエントロピーやヒンジ損失関数とは異なり、この損失関数は研究者や実践者がトレーニングプロセスに柔軟性をもたらす。
論文 参考訳(メタデータ) (2022-10-31T22:39:32Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Distributionally Robust Offline Reinforcement Learning with Linear
Function Approximation [16.128778192359327]
我々は、ソース環境から得られた履歴データを用いてRLエージェントを学習し、摂動環境において良好に動作するように最適化する。
我々は、線形関数次元$d$に応じて、我々のアルゴリズムが$O(sqrtK)$の亜最適性を達成できることを証明した。
論文 参考訳(メタデータ) (2022-09-14T13:17:59Z) - A deep learning method for solving stochastic optimal control problems driven by fully-coupled FBSDEs [1.0703175070560689]
最初にこの問題をStackelberg微分ゲーム問題(リーダー-フォロワー問題)に変換する。
ユーティリティーモデルによる投資消費問題の2つの例を計算した。
その結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-04-12T13:31:19Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。