論文の概要: Balanced Q-learning: Combining the Influence of Optimistic and
Pessimistic Targets
- arxiv url: http://arxiv.org/abs/2111.02787v1
- Date: Wed, 3 Nov 2021 07:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-06 04:14:37.084891
- Title: Balanced Q-learning: Combining the Influence of Optimistic and
Pessimistic Targets
- Title(参考訳): バランスの取れたQ-ラーニング:最適化と悲観的目標の影響を組み合わせる
- Authors: Thommen George Karimpanal, Hung Le, Majid Abdolshah, Santu Rana, Sunil
Gupta, Truyen Tran, Svetha Venkatesh
- Abstract要約: シナリオによっては、特定の種類の偏見が好ましいかもしれないことを示す。
そこで我々は,目標を悲観的かつ楽観的な用語の凸組合せに修正した新しい強化学習アルゴリズムであるBa balanced Q-learningを設計する。
- 参考スコア(独自算出の注目度): 74.04426767769785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The optimistic nature of the Q-learning target leads to an overestimation
bias, which is an inherent problem associated with standard $Q-$learning. Such
a bias fails to account for the possibility of low returns, particularly in
risky scenarios. However, the existence of biases, whether overestimation or
underestimation, need not necessarily be undesirable. In this paper, we
analytically examine the utility of biased learning, and show that specific
types of biases may be preferable, depending on the scenario. Based on this
finding, we design a novel reinforcement learning algorithm, Balanced
Q-learning, in which the target is modified to be a convex combination of a
pessimistic and an optimistic term, whose associated weights are determined
online, analytically. We prove the convergence of this algorithm in a tabular
setting, and empirically demonstrate its superior learning performance in
various environments.
- Abstract(参考訳): Q-ラーニングターゲットの楽観的な性質は、標準の$Q-$ラーニングに関連する固有の問題である過大評価バイアスをもたらす。
このようなバイアスは、特にリスクのあるシナリオにおいて、低いリターンの可能性を考慮するのに失敗する。
しかし、過大評価であれ過小評価であれ、バイアスの存在は必ずしも望ましくないとは限らない。
本稿では,バイアス学習の有用性を解析的に検討し,シナリオによっては,特定の種類のバイアスが望ましいことを示す。
そこで本研究では,新たな強化学習アルゴリズムであるBa balanced Q-learningを設計し,対象を悲観的および楽観的な用語の凸結合に修正し,関連する重みをオンラインで解析的に決定する。
本研究では,このアルゴリズムの収束性を表形式で証明し,様々な環境において優れた学習性能を実証する。
関連論文リスト
- Topological Augmentation for Class-Imbalanced Node Classification [64.20437487896343]
探索下トポロジ中心の視点から,クラス不均衡バイアスの源泉について検討した。
そこで我々は, アンビバシアン/ディスタントメッセージパッシングの影響を受けやすいノードを動的に修正する, 軽量なトポロジカル拡張手法TOBAを考案した。
ToBAはモデルに依存しない、効率的で多用途なソリューションであり、シームレスに組み合わせて、他の不均衡処理技術をさらに促進することができる。
論文 参考訳(メタデータ) (2023-08-27T19:01:29Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - On the Estimation Bias in Double Q-Learning [20.856485777692594]
二重Q学習は完全にバイアスがなく、過小評価バイアスに悩まされている。
そのような過小評価バイアスは、近似されたベルマン作用素の下で複数の最適でない不動点をもたらす可能性があることを示す。
ダブルQ-ラーニングにおける過小評価バイアスに対する部分修正として,単純だが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-29T13:41:24Z) - Using Pareto Simulated Annealing to Address Algorithmic Bias in Machine
Learning [2.055949720959582]
バランスの取れた精度と過小評価の両方を最適化する多目的最適化戦略を提案する。
我々は,この戦略の有効性を,1つの実世界のデータセットと2つの実世界のデータセットに示す。
論文 参考訳(メタデータ) (2021-05-31T15:51:43Z) - Counterfactual Representation Learning with Balancing Weights [74.67296491574318]
観察データによる因果推論の鍵は、それぞれの治療タイプに関連する予測的特徴のバランスを達成することである。
近年の文献では、この目標を達成するために表現学習を探求している。
因果効果を柔軟かつスケーラブルかつ正確に推定するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-10-23T19:06:03Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Provable tradeoffs in adversarially robust classification [96.48180210364893]
我々は、ロバストなイソペリメトリに関する確率論の最近のブレークスルーを含む、新しいツールを開発し、活用する。
この結果から,データの不均衡時に増加する標準精度とロバスト精度の基本的なトレードオフが明らかになった。
論文 参考訳(メタデータ) (2020-06-09T09:58:19Z) - Maxmin Q-learning: Controlling the Estimation Bias of Q-learning [31.742397178618624]
過大評価バイアスは、最大推定アクション値を用いて最大アクション値を近似するため、Q-ラーニングに影響を与える。
バイアスを柔軟に制御するためのパラメータを提供するemphMaxmin Q-learningと呼ばれるQ-ラーニングの一般化を提案する。
提案アルゴリズムは,おもちゃの環境における推定バイアスをよりよく制御し,いくつかのベンチマーク問題において優れた性能が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-02-16T02:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。