論文の概要: On-Policy Model Errors in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.07985v1
- Date: Fri, 15 Oct 2021 10:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 22:26:35.404661
- Title: On-Policy Model Errors in Reinforcement Learning
- Title(参考訳): 強化学習におけるオンポリシーモデル誤差
- Authors: Lukas P. Fr\"ohlich, Maksym Lefarov, Melanie N. Zeilinger, Felix
Berkenkamp
- Abstract要約: 本研究では,実世界のデータと学習モデルを組み合わせた新しい手法を提案する。
中心となる考え方は、実世界のデータを政治上の予測に利用し、学習したモデルを使用して、異なるアクションに一般化することである。
提案手法は,追加のチューニングパラメータを導入することなく,既存のモデルベースアプローチを大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 9.507323314334572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-free reinforcement learning algorithms can compute policy gradients
given sampled environment transitions, but require large amounts of data. In
contrast, model-based methods can use the learned model to generate new data,
but model errors and bias can render learning unstable or sub-optimal. In this
paper, we present a novel method that combines real world data and a learned
model in order to get the best of both worlds. The core idea is to exploit the
real world data for on-policy predictions and use the learned model only to
generalize to different actions. Specifically, we use the data as
time-dependent on-policy correction terms on top of a learned model, to retain
the ability to generate data without accumulating errors over long prediction
horizons. We motivate this method theoretically and show that it counteracts an
error term for model-based policy improvement. Experiments on MuJoCo- and
PyBullet-benchmarks show that our method can drastically improve existing
model-based approaches without introducing additional tuning parameters.
- Abstract(参考訳): モデルなし強化学習アルゴリズムは、サンプル環境遷移のポリシー勾配を計算することができるが、大量のデータを必要とする。
対照的に、モデルベースの手法は学習したモデルを使って新しいデータを生成することができるが、モデルエラーとバイアスは学習を不安定または準最適にすることができる。
本稿では,実世界のデータと学習モデルを組み合わせた新しい手法を提案する。
中心となるアイデアは、実世界のデータをオン・ポリシーな予測に活用し、学習モデルを使用して異なるアクションに一般化することである。
具体的には、学習モデル上の時間依存のオンライン補正用語として、長い予測地平線上の誤差を蓄積することなくデータを生成する能力を維持する。
我々は,この手法を理論的に動機付け,モデルに基づく政策改善の誤り項に反することを示す。
MuJoCo-およびPyBullet-benchmarksの実験では、追加のチューニングパラメータを導入することなく既存のモデルベースのアプローチを大幅に改善できることが示されている。
関連論文リスト
- Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Deep Explainable Learning with Graph Based Data Assessing and Rule
Reasoning [4.369058206183195]
本稿では、ノイズハンドリングにおけるディープモデルの利点とエキスパートルールに基づく解釈可能性を組み合わせたエンドツーエンドのディープ・ツー・エンドのディープ・説明可能な学習手法を提案する。
提案手法は, 工業生産システムにおいて, 予測精度に匹敵し, より高い一般化安定性, より優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2022-11-09T05:58:56Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。