論文の概要: Switching the Loss Reduces the Cost in Batch Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.05385v2
- Date: Tue, 12 Mar 2024 16:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 13:22:59.528310
- Title: Switching the Loss Reduces the Cost in Batch Reinforcement Learning
- Title(参考訳): 損失の切り替えはバッチ強化学習のコストを削減する
- Authors: Alex Ayoub, Kaiwen Wang, Vincent Liu, Samuel Robertson, James
McInerney, Dawen Liang, Nathan Kallus, and Csaba Szepesv\'ari
- Abstract要約: 本稿では,FQI-LOG尺度を用いた準最適政策の学習に必要なサンプル数と,最適政策の蓄積コストについて述べる。
我々は,FQI-LOGが目標を確実に達成する問題に対して,2乗損失を訓練したFQIよりも少ないサンプルを用いていることを実証的に検証した。
- 参考スコア(独自算出の注目度): 34.271542267787716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose training fitted Q-iteration with log-loss (FQI-LOG) for batch
reinforcement learning (RL). We show that the number of samples needed to learn
a near-optimal policy with FQI-LOG scales with the accumulated cost of the
optimal policy, which is zero in problems where acting optimally achieves the
goal and incurs no cost. In doing so, we provide a general framework for
proving $\textit{small-cost}$ bounds, i.e. bounds that scale with the optimal
achievable cost, in batch RL. Moreover, we empirically verify that FQI-LOG uses
fewer samples than FQI trained with squared loss on problems where the optimal
policy reliably achieves the goal.
- Abstract(参考訳): バッチ強化学習(RL)のためのログロス付きQ-定位学習(FQI-LOG)を提案する。
本稿では,FQI-LOGによる準最適政策の学習に必要なサンプルの数が最適政策の累積コストと一致していることを示す。
そのような場合、バッチ RL で $\textit{small-cost}$ bounds, すなわち、最適な達成可能なコストでスケールするバウンドを証明するための一般的なフレームワークを提供する。
さらに,FQI-LOGが目標を確実に達成する問題に対して,2乗損失を訓練したFQIよりも少ないサンプルを用いていることを実証的に検証した。
関連論文リスト
- Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning [11.666700714916065]
制約付きRLは強化学習における安全な行動を実施するためのフレームワークである。
制約付きRLを解くための最近の手法は、軌道に基づくコスト制約を代理問題に変換する。
トラジェクトリに基づくコスト制約を変更しず、代わりにグッドのトラジェクトリを模倣するアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-16T08:48:46Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Near-Optimal Deployment Efficiency in Reward-Free Reinforcement Learning
with Linear Function Approximation [16.871660060209674]
本研究では, 線形関数近似を用いた展開効率向上強化学習(RL)の課題を, 遠近自由探索条件下で検討する。
我々は,最大$widetildeO(fracd2H5epsilon2)$ trajectoriesを$H$デプロイメント内で収集し,$epsilon$-Optimal Policyを任意の(おそらくはデータに依存した)報酬関数の選択に対して識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T03:48:26Z) - BCRLSP: An Offline Reinforcement Learning Framework for Sequential
Targeted Promotion [8.499811428928071]
本稿では,利用者に送付される現金ボーナスの価値を決定するために,予算制約付き逐次促進学習フレームワークを提案する。
BCRLSPは, 長期顧客維持率が高く, 各種ベースラインよりも低コストであることを示す。
論文 参考訳(メタデータ) (2022-07-16T00:10:12Z) - Policy Optimization with Linear Temporal Logic Constraints [37.27882290236194]
本稿では,線形時間論理制約を用いた政策最適化の問題点について考察する。
我々は,タスク満足度とコスト最適性の両方を保証するために,サンプル複雑性分析を楽しむモデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2022-06-20T02:58:02Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。