論文の概要: Model-Augmented Q-learning
- arxiv url: http://arxiv.org/abs/2102.03866v1
- Date: Sun, 7 Feb 2021 17:56:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 18:29:54.046141
- Title: Model-Augmented Q-learning
- Title(参考訳): モデル強化Q-ラーニング
- Authors: Youngmin Oh, Jinwoo Shin, Eunho Yang, Sung Ju Hwang
- Abstract要約: モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
- 参考スコア(独自算出の注目度): 112.86795579978802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, $Q$-learning has become indispensable for model-free
reinforcement learning (MFRL). However, it suffers from well-known problems
such as under- and overestimation bias of the value, which may adversely affect
the policy learning. To resolve this issue, we propose a MFRL framework that is
augmented with the components of model-based RL. Specifically, we propose to
estimate not only the $Q$-values but also both the transition and the reward
with a shared network. We further utilize the estimated reward from the model
estimators for $Q$-learning, which promotes interaction between the estimators.
We show that the proposed scheme, called Model-augmented $Q$-learning (MQL),
obtains a policy-invariant solution which is identical to the solution obtained
by learning with true reward. Finally, we also provide a trick to prioritize
past experiences in the replay buffer by utilizing model-estimation errors. We
experimentally validate MQL built upon state-of-the-art off-policy MFRL
methods, and show that MQL largely improves their performance and convergence.
The proposed scheme is simple to implement and does not require additional
training cost.
- Abstract(参考訳): 近年,モデルフリー強化学習(MFRL)にはQ$-learningが不可欠である。
しかし、それは、政策学習に悪影響を及ぼす可能性のある値の過小評価バイアスなどのよく知られた問題に苦しんでいます。
そこで本研究では,モデルベースRLのコンポーネントを付加したMFRLフレームワークを提案する。
具体的には、$Q$値だけでなく、共有ネットワークでのトランジションと報酬の両方を推定することを提案する。
さらに,モデル推定者からの推定報酬を$q$学習に活用し,推定者間のインタラクションを促進する。
提案されたスキームはモデル拡張$Q$-ラーニング(MQL)と呼ばれ、真の報酬で学習することによって得られるソリューションと同一のポリシー不変のソリューションを得る。
最後に,モデル推定誤差を利用して,リプレイバッファにおける過去の経験を優先するトリックも提供する。
我々は、最先端のオフポリティクスMFRL法に基づいて構築されたMQLを実験的に検証し、MQLが性能と収束性を大幅に改善することを示す。
提案方式は実装が簡単で,追加のトレーニングコストを必要としない。
関連論文リスト
- Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives [14.401557416713315]
報奨モデルにおけるBradley-Terryモデル(BT)モデルの使用の基礎を再考する。
我々は,下流最適化の観点から,BTモデルが必須選択ではないことを論じる。
既成のバイナリ分類器と互換性のある,単純で簡単な上行法を提案する。
論文 参考訳(メタデータ) (2024-11-07T18:57:03Z) - MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
本稿では,車載メタバースにおける拡張現実(AR)サービスの学習モデルを支援するために,メタバースユーザ(MU)にインセンティブを与える新しい没入型モデルトレーディングフレームワークを提案する。
動的ネットワーク条件とプライバシの懸念を考慮して、マルチエージェントマルコフ決定プロセスとしてMSPの報酬決定を定式化する。
実験により,提案フレームワークは,実AR関連車両データセット上でのARサービスにおいて,オブジェクト検出と分類のための高価値モデルを効果的に提供できることが示されている。
論文 参考訳(メタデータ) (2024-10-25T16:20:46Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Finite-Time Error Analysis of Online Model-Based Q-Learning with a
Relaxed Sampling Model [6.663174194579773]
Q$-learningは、モデルなしの設定において強力なアルゴリズムであることが証明されている。
モデルベースのフレームワークへの$Q$-learningの拡張については、まだ明らかになっていない。
論文 参考訳(メタデータ) (2024-02-19T06:33:51Z) - Model Sparsity Can Simplify Machine Unlearning [33.18951938708467]
最近のデータ規制要件に応えて、マシン・アンラーニング(MU)が重要なプロセスとして登場した。
本研究は,ウェイトプルーニングによるモデルスペーシフィケーションという,新しいモデルベース視点を紹介する。
理論と実践の両方において、モデルスパーシティは、近似アンラーナーのマルチ基準アンラーニング性能を高めることができることを示す。
論文 参考訳(メタデータ) (2023-04-11T02:12:02Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。