論文の概要: Open Problems and Modern Solutions for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.02298v1
- Date: Sun, 5 Feb 2023 04:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 19:02:21.248462
- Title: Open Problems and Modern Solutions for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習におけるオープン問題と現代解法
- Authors: Weiqin Chen
- Abstract要約: 本稿では,DRLの問題点を調査し,効果的な解法を提案する2つの論文をレビューする。
手動で設計した外因性報酬とパラメータ化された内因性報酬関数を組み合わせることで、人間とロボットの協調のための報酬を設計する。
もう一つは、バックプロパゲーションの代わりに近似推論を用いてDRLの重要な事前学習特徴を迅速かつ柔軟に選択するために、選択的注意と粒子フィルタを適用している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) has achieved great success in solving
complicated decision-making problems. Despite the successes, DRL is frequently
criticized for many reasons, e.g., data inefficient, inflexible and intractable
reward design. In this paper, we review two publications that investigate the
mentioned issues of DRL and propose effective solutions. One designs the reward
for human-robot collaboration by combining the manually designed extrinsic
reward with a parameterized intrinsic reward function via the deterministic
policy gradient, which improves the task performance and guarantees a stronger
obstacle avoidance. The other one applies selective attention and particle
filters to rapidly and flexibly attend to and select crucial pre-learned
features for DRL using approximate inference instead of backpropagation,
thereby improving the efficiency and flexibility of DRL. Potential avenues for
future work in both domains are discussed in this paper.
- Abstract(参考訳): 深層強化学習(DRL)は複雑な意思決定問題の解決に成功している。
これらの成功にもかかわらず、DRLはデータ非効率、柔軟性のない、難解な報酬設計など、多くの理由でしばしば批判されている。
本稿では,DRLの問題点を調査する2つの論文をレビューし,有効解を提案する。
手動で設計した外因性報酬とパラメータ化された内因性報酬関数を組み合わせた人間ロボット協調の報酬を決定論的ポリシー勾配により設計し、タスク性能を改善し、より強い障害物回避を保証する。
もう1つは、バックプロパゲーションの代わりに近似推論を用いてDRLの重要な事前学習特徴を迅速かつ柔軟に適用し、DRLの効率と柔軟性を向上させるために選択的注意と粒子フィルタを適用している。
本稿では,両領域における今後の課題について論じる。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - A Transferable and Automatic Tuning of Deep Reinforcement Learning for
Cost Effective Phishing Detection [21.481974148873807]
現実の課題の多くは、複数の補完的な学習モデルのアンサンブルを配置する必要がある。
Deep Reinforcement Learning (DRL) はコスト効率のよい代替手段であり、検出器は前者の出力に基づいて動的に選択される。
論文 参考訳(メタデータ) (2022-09-19T14:09:07Z) - Using Deep Reinforcement Learning to solve Optimal Power Flow problem
with generator failures [0.0]
最適潮流(OPF)問題を解決するために、2つの古典的アルゴリズムが提案されている。
バニラDRLアプリケーションの欠点を論じ,性能向上のためのアルゴリズムを提案する。
DRLにおける固有問題の解法を可能にするOPF問題に対する報奨関数を提案する。
論文 参考訳(メタデータ) (2022-05-04T15:09:50Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。