論文の概要: Balanced Q-learning: Combining the Influence of Optimistic and
Pessimistic Targets
- arxiv url: http://arxiv.org/abs/2111.02787v1
- Date: Wed, 3 Nov 2021 07:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-06 04:14:37.084891
- Title: Balanced Q-learning: Combining the Influence of Optimistic and
Pessimistic Targets
- Title(参考訳): バランスの取れたQ-ラーニング:最適化と悲観的目標の影響を組み合わせる
- Authors: Thommen George Karimpanal, Hung Le, Majid Abdolshah, Santu Rana, Sunil
Gupta, Truyen Tran, Svetha Venkatesh
- Abstract要約: シナリオによっては、特定の種類の偏見が好ましいかもしれないことを示す。
そこで我々は,目標を悲観的かつ楽観的な用語の凸組合せに修正した新しい強化学習アルゴリズムであるBa balanced Q-learningを設計する。
- 参考スコア(独自算出の注目度): 74.04426767769785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The optimistic nature of the Q-learning target leads to an overestimation
bias, which is an inherent problem associated with standard $Q-$learning. Such
a bias fails to account for the possibility of low returns, particularly in
risky scenarios. However, the existence of biases, whether overestimation or
underestimation, need not necessarily be undesirable. In this paper, we
analytically examine the utility of biased learning, and show that specific
types of biases may be preferable, depending on the scenario. Based on this
finding, we design a novel reinforcement learning algorithm, Balanced
Q-learning, in which the target is modified to be a convex combination of a
pessimistic and an optimistic term, whose associated weights are determined
online, analytically. We prove the convergence of this algorithm in a tabular
setting, and empirically demonstrate its superior learning performance in
various environments.
- Abstract(参考訳): Q-ラーニングターゲットの楽観的な性質は、標準の$Q-$ラーニングに関連する固有の問題である過大評価バイアスをもたらす。
このようなバイアスは、特にリスクのあるシナリオにおいて、低いリターンの可能性を考慮するのに失敗する。
しかし、過大評価であれ過小評価であれ、バイアスの存在は必ずしも望ましくないとは限らない。
本稿では,バイアス学習の有用性を解析的に検討し,シナリオによっては,特定の種類のバイアスが望ましいことを示す。
そこで本研究では,新たな強化学習アルゴリズムであるBa balanced Q-learningを設計し,対象を悲観的および楽観的な用語の凸結合に修正し,関連する重みをオンラインで解析的に決定する。
本研究では,このアルゴリズムの収束性を表形式で証明し,様々な環境において優れた学習性能を実証する。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Regularized Q-learning through Robust Averaging [3.4354636842203026]
本稿では,既存のQラーニング手法の弱点を原則的に解決する,2RA Qラーニングと呼ばれる新しいQラーニング変種を提案する。
そのような弱点の1つは、制御できない、しばしばパフォーマンスが低下する、基礎となる推定バイアスである。
2RA Q-learningは最適ポリシーに収束し、理論平均二乗誤差を解析する。
論文 参考訳(メタデータ) (2024-05-03T15:57:26Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - On the Estimation Bias in Double Q-Learning [20.856485777692594]
二重Q学習は完全にバイアスがなく、過小評価バイアスに悩まされている。
そのような過小評価バイアスは、近似されたベルマン作用素の下で複数の最適でない不動点をもたらす可能性があることを示す。
ダブルQ-ラーニングにおける過小評価バイアスに対する部分修正として,単純だが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-29T13:41:24Z) - Using Pareto Simulated Annealing to Address Algorithmic Bias in Machine
Learning [2.055949720959582]
バランスの取れた精度と過小評価の両方を最適化する多目的最適化戦略を提案する。
我々は,この戦略の有効性を,1つの実世界のデータセットと2つの実世界のデータセットに示す。
論文 参考訳(メタデータ) (2021-05-31T15:51:43Z) - Counterfactual Representation Learning with Balancing Weights [74.67296491574318]
観察データによる因果推論の鍵は、それぞれの治療タイプに関連する予測的特徴のバランスを達成することである。
近年の文献では、この目標を達成するために表現学習を探求している。
因果効果を柔軟かつスケーラブルかつ正確に推定するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-10-23T19:06:03Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Provable tradeoffs in adversarially robust classification [96.48180210364893]
我々は、ロバストなイソペリメトリに関する確率論の最近のブレークスルーを含む、新しいツールを開発し、活用する。
この結果から,データの不均衡時に増加する標準精度とロバスト精度の基本的なトレードオフが明らかになった。
論文 参考訳(メタデータ) (2020-06-09T09:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。