論文の概要: Optimizing the Long-Term Behaviour of Deep Reinforcement Learning for
Pushing and Grasping
- arxiv url: http://arxiv.org/abs/2204.03487v1
- Date: Thu, 7 Apr 2022 15:02:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 20:34:43.952571
- Title: Optimizing the Long-Term Behaviour of Deep Reinforcement Learning for
Pushing and Grasping
- Title(参考訳): プッシュ・グラッピングのための深層強化学習の長期的行動の最適化
- Authors: Rodrigo Chau
- Abstract要約: 長期報酬と政策を学習する2つのシステムの能力について検討する。
Ewerton et al.は、最もすぐれた行動のみを考慮に入れたエージェントを使用して、最高のパフォーマンスを得る。
提案手法により,大規模な割引要因でトレーニングされた場合,モデルが長期動作シーケンスを正確に予測できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the "Visual Pushing for Grasping" (VPG) system by Zeng et al.
and the "Hourglass" system by Ewerton et al., an evolution of the former. The
focus of our work is the investigation of the capabilities of both systems to
learn long-term rewards and policies. Zeng et al. original task only needs a
limited amount of foresight. Ewerton et al. attain their best performance using
an agent which only takes the most immediate action under consideration. We are
interested in the ability of their models and training algorithms to accurately
predict long-term Q-Values. To evaluate this ability, we design a new bin
sorting task and reward function. Our task requires agents to accurately
estimate future rewards and therefore use high discount factors in their
Q-Value calculation. We investigate the behaviour of an adaptation of the VPG
training algorithm on our task. We show that this adaptation can not accurately
predict the required long-term action sequences. In addition to the limitations
identified by Ewerton et al., it suffers from the known Deep Q-Learning problem
of overestimated Q-Values. In an effort to solve our task, we turn to the
Hourglass models and combine them with the Double Q-Learning approach. We show
that this approach enables the models to accurately predict long-term action
sequences when trained with large discount factors. Our results show that the
Double Q-Learning technique is essential for training with very high discount
factors, as the models Q-Value predictions diverge otherwise. We also
experiment with different approaches for discount factor scheduling, loss
calculation and exploration procedures. Our results show that the latter
factors do not visibly influence the model's performance for our task.
- Abstract(参考訳): 我々は,Zengらによる"Visual Pushing for Grasping"(VPG)システムと,Ewertonらによる"Hourglass"システムについて検討した。
私たちの研究の焦点は、長期的な報酬と政策を学ぶ両方のシステムの能力の調査です。
Zeng et al. オリジナルのタスクは、限られた事前監視しか必要としない。
Ewerton et al.は、最も迅速な行動のみを考慮したエージェントを使用して、最高のパフォーマンスを得る。
長期的なq値を正確に予測するためのモデルやトレーニングアルゴリズムの能力に興味があります。
この能力を評価するために,新しいビンソートタスクと報酬関数を設計した。
本課題は,エージェントが将来の報酬を正確に推定すること,従って,q値計算に高い割引係数を用いることである。
本稿では,この課題に対するVPGトレーニングアルゴリズムの適応動作について検討する。
この適応は, 長期的行動系列を正確に予測できないことを示す。
Ewertonらによって特定される制限に加えて、過大評価されたQ値のDeep Q-Learning問題に悩まされている。
課題を解決するために、Hourglassモデルに目を向け、それをDouble Q-Learningアプローチと組み合わせる。
提案手法により,大規模な割引要因でトレーニングされた場合,モデルが長期動作シーケンスを正確に予測できることを示す。
その結果,モデルのq値予測が異なってくるため,割引率の高いトレーニングには二重q学習技術が不可欠であることがわかった。
また,割引率スケジューリング,損失計算,探索手順について実験を行った。
以上の結果から,後者の要因は,課題に対するモデルの性能に有意な影響を与えないことが示された。
関連論文リスト
- Towards Adapting Reinforcement Learning Agents to New Tasks: Insights from Q-Values [8.694989771294013]
ポリシー勾配メソッドは、サンプル効率のよい方法でそれらを活用する方法に悩まされる限り、多くのドメインで有用です。
我々は、強化学習におけるDQNのカオス的な性質を探求し、トレーニング時に保持する情報を、異なるタスクにモデルを適用するためにどのように再利用するかを理解した。
論文 参考訳(メタデータ) (2024-07-14T21:28:27Z) - Modeling of learning curves with applications to pos tagging [0.27624021966289597]
トレーニングベース全体の学習曲線の進化を推定するアルゴリズムを導入する。
学習手法とは無関係に,所望のタイミングで探索値を反復的に近似する。
本提案は, 作業仮説に関して正式に正しいことを証明し, 信頼性の高い近接条件を含む。
論文 参考訳(メタデータ) (2024-02-04T15:00:52Z) - VQC-Based Reinforcement Learning with Data Re-uploading: Performance and Trainability [0.8192907805418583]
強化学習(Reinforcement Learning, RL)は、人間の監督なしに知的意思決定を行うエージェントを設計する。
Deep NNを使用するRLアルゴリズムであるDeep Q-Learningは、いくつかの特定のタスクで超人的なパフォーマンスを達成した。
また、RLアルゴリズムの関数近似器として変分量子回路(VQC)を用いることもできる。
論文 参考訳(メタデータ) (2024-01-21T18:00:15Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Hindsight Experience Replay with Kronecker Product Approximate Curvature [5.441932327359051]
Hindsight Experience Replay (HER) は強化学習タスクを解決するアルゴリズムの1つである。
しかし、サンプル効率が低下し、収束が遅いため、HERは効率よく動作しない。
自然勾配はモデルパラメータをより収束させることによってこれらの課題を解決する。
提案手法は, 以上の課題を, より優れたサンプル効率, より高速な収束で解決し, 成功率を向上する。
論文 参考訳(メタデータ) (2020-10-09T20:25:14Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。