論文の概要: Boosting Soft Q-Learning by Bounding
- arxiv url: http://arxiv.org/abs/2406.18033v1
- Date: Wed, 26 Jun 2024 03:02:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 14:48:10.427773
- Title: Boosting Soft Q-Learning by Bounding
- Title(参考訳): 境界によるソフトQ-Learningの強化
- Authors: Jacob Adamczyk, Volodymyr Makarenko, Stas Tiomkin, Rahul V. Kulkarni,
- Abstract要約: 任意の値関数推定が最適値関数上の二辺境界の導出にも利用できることを示す。
派生したバウンダリは、トレーニングパフォーマンスを高めるための新しいアプローチにつながります。
- 参考スコア(独自算出の注目度): 4.8748194765816955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An agent's ability to leverage past experience is critical for efficiently solving new tasks. Prior work has focused on using value function estimates to obtain zero-shot approximations for solutions to a new task. In soft Q-learning, we show how any value function estimate can also be used to derive double-sided bounds on the optimal value function. The derived bounds lead to new approaches for boosting training performance which we validate experimentally. Notably, we find that the proposed framework suggests an alternative method for updating the Q-function, leading to boosted performance.
- Abstract(参考訳): エージェントが過去の経験を活用する能力は、新しいタスクを効率的に解決するために重要である。
以前の研究は、新しいタスクに対するソリューションのゼロショット近似を得るために、値関数の見積を使うことに重点を置いていた。
ソフトQ-ラーニングでは、任意の値関数推定が最適値関数上の二辺境界の導出にも利用できることを示す。
得られたバウンダリは,実験により検証したトレーニング性能向上のための新しいアプローチにつながる。
特に,提案手法はQ関数を更新する代替手法として提案され,性能が向上した。
関連論文リスト
- Improving Forward Compatibility in Class Incremental Learning by Increasing Representation Rank and Feature Richness [3.0620294646308754]
本稿では,前方互換性向上を目的としたRFR法を提案する。
本研究は,破滅的忘れ込みを緩和しつつ,新規タスク性能を高めるためのアプローチの有効性を実証するものである。
論文 参考訳(メタデータ) (2024-03-22T11:14:30Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Learning to Rank for Active Learning via Multi-Task Bilevel Optimization [29.207101107965563]
データ取得のための学習代理モデルを用いて、ラベルのないインスタンスのバッチを選択することを目的とした、アクティブな学習のための新しいアプローチを提案する。
このアプローチにおける重要な課題は、ユーティリティ関数の入力の一部を構成するデータの歴史が時間とともに増大するにつれて、よく一般化する取得関数を開発することである。
論文 参考訳(メタデータ) (2023-10-25T22:50:09Z) - Leveraging Prior Knowledge in Reinforcement Learning via Double-Sided
Bounds on the Value Function [4.48890356952206]
本稿では、値関数の任意の近似を用いて、関心の最適値関数上の二辺境界を導出する方法を示す。
連続状態とアクション空間のエラー解析でフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-02-19T21:47:24Z) - Accelerating Policy Gradient by Estimating Value Function from Prior
Computation in Deep Reinforcement Learning [16.999444076456268]
そこで本研究では,事前計算を用いて値関数を推定し,オンライン政策勾配法におけるサンプル効率を向上する方法について検討する。
特に,対象タスクに対する新しい値関数を事前の値推定と組み合わせて学習する。
結果の値関数は、ポリシー勾配法におけるベースラインとして使用される。
論文 参考訳(メタデータ) (2023-02-02T20:23:22Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。