論文の概要: Stable deep reinforcement learning method by predicting uncertainty in
rewards as a subtask
- arxiv url: http://arxiv.org/abs/2101.06906v1
- Date: Mon, 18 Jan 2021 07:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 06:05:48.702283
- Title: Stable deep reinforcement learning method by predicting uncertainty in
rewards as a subtask
- Title(参考訳): サブタスクとしての報酬の不確実性予測による安定な深層強化学習法
- Authors: Kanata Suzuki, Tetsuya Ogata
- Abstract要約: 報酬信号に含まれるばらつきを推定するためにサブタスクを追加し,既存のDRLモデルを拡張する手法を提案する。
不安定報奨信号を持つatariゲーム領域における実験の結果,本手法はトレーニング収束を安定化することがわかった。
このアプローチは、騒々しい現実のシナリオで使用するためにDRLをより実用的にする可能性がある。
- 参考スコア(独自算出の注目度): 4.255489581160785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, a variety of tasks have been accomplished by deep
reinforcement learning (DRL). However, when applying DRL to tasks in a
real-world environment, designing an appropriate reward is difficult. Rewards
obtained via actual hardware sensors may include noise, misinterpretation, or
failed observations. The learning instability caused by these unstable signals
is a problem that remains to be solved in DRL. In this work, we propose an
approach that extends existing DRL models by adding a subtask to directly
estimate the variance contained in the reward signal. The model then takes the
feature map learned by the subtask in a critic network and sends it to the
actor network. This enables stable learning that is robust to the effects of
potential noise. The results of experiments in the Atari game domain with
unstable reward signals show that our method stabilizes training convergence.
We also discuss the extensibility of the model by visualizing feature maps.
This approach has the potential to make DRL more practical for use in noisy,
real-world scenarios.
- Abstract(参考訳): 近年, 深部強化学習(DRL)によって様々な課題が達成されている。
しかし,実環境におけるタスクにdrlを適用する場合,適切な報酬の設計は困難である。
実際のハードウェアセンサーから得られる報酬には、ノイズ、誤解、あるいは観測失敗が含まれる。
これらの不安定な信号による学習不安定性は、DRLでは未解決の問題である。
本研究では,報酬信号に含まれる分散を直接推定するためにサブタスクを追加することで,既存のDRLモデルを拡張するアプローチを提案する。
次にモデルは、批判ネットワークのサブタスクによって学習されたフィーチャーマップをアクタネットワークに送信する。
これにより、潜在的なノイズの影響にロバストな安定した学習が可能になる。
不安定報奨信号を持つatariゲーム領域における実験の結果,本手法はトレーニング収束を安定化することがわかった。
また,特徴マップの可視化による拡張性についても検討する。
このアプローチは、ノイズの多い現実世界のシナリオでDRLをより実用的なものにする可能性がある。
関連論文リスト
- MAD-TD: Model-Augmented Data stabilizes High Update Ratio RL [20.22674077197914]
最近の研究は、新しいサンプルごとに多数の勾配ステップを持つニューラルネットワークの更新について検討している。
高い更新とデータの比率は、トレーニングプロセスに不安定をもたらす。
時間差分学習のためのモデル拡張データ(MAD-TD)は,少数の生成データを用いて高UTDトレーニングを安定化する。
論文 参考訳(メタデータ) (2024-10-11T15:13:17Z) - Offline Reinforcement Learning with Imputed Rewards [8.856568375969848]
本稿では,報酬を付与した環境遷移のごく限られたサンプルから報酬信号を推定できるリワードモデルを提案する。
その結果、元のデータセットからの報酬ラベル付き遷移の1%しか使用していないため、学習した報酬モデルは残りの99%の遷移に対して報酬を付与できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T15:53:13Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。
オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。
本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T20:58:21Z) - Denoised MDPs: Learning World Models Better Than the World Itself [94.74665254213588]
本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。
DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
論文 参考訳(メタデータ) (2022-06-30T17:59:49Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。