論文の概要: Exploring reinforcement learning techniques for discrete and continuous
control tasks in the MuJoCo environment
- arxiv url: http://arxiv.org/abs/2307.11166v1
- Date: Thu, 20 Jul 2023 18:01:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 14:29:44.741012
- Title: Exploring reinforcement learning techniques for discrete and continuous
control tasks in the MuJoCo environment
- Title(参考訳): MuJoCo環境における離散的・連続的制御タスクのための強化学習手法の探索
- Authors: Vaddadi Sai Rahul, Debajyoti Chakraborty
- Abstract要約: 高速な物理シミュレータ MuJoCo を利用して連続的な制御環境でタスクを実行する。
Q-learning と SARSA を比較して,連続制御のための値ベース手法をベンチマークする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We leverage the fast physics simulator, MuJoCo to run tasks in a continuous
control environment and reveal details like the observation space, action
space, rewards, etc. for each task. We benchmark value-based methods for
continuous control by comparing Q-learning and SARSA through a discretization
approach, and using them as baselines, progressively moving into one of the
state-of-the-art deep policy gradient method DDPG. Over a large number of
episodes, Qlearning outscored SARSA, but DDPG outperformed both in a small
number of episodes. Lastly, we also fine-tuned the model hyper-parameters
expecting to squeeze more performance but using lesser time and resources. We
anticipated that the new design for DDPG would vastly improve performance, yet
after only a few episodes, we were able to achieve decent average rewards. We
expect to improve the performance provided adequate time and computational
resources.
- Abstract(参考訳): 我々は、高速な物理シミュレータであるMuJoCoを利用して、連続的な制御環境でタスクを実行し、各タスクに対する観察空間、アクションスペース、報酬などの詳細を明らかにする。
本稿では,Q-learning と SARSA を離散化手法で比較し,それらをベースラインとして使用し,現在最先端の深層政策勾配法 DDPG に段階的に移行した。
多数のエピソードにおいて、QlearningはSARSAより優れていたが、DDPGはいずれも少数のエピソードで優れていた。
最後に、モデルハイパーパラメータを微調整し、より多くのパフォーマンスを期待しながら、より少ない時間とリソースを使うようにしました。
DDPGの新しい設計はパフォーマンスを大幅に改善すると予想したが、わずか数回で十分な平均的な報酬を得ることができた。
十分な時間と計算資源を提供するパフォーマンスの向上を期待する。
関連論文リスト
- ETGL-DDPG: A Deep Deterministic Policy Gradient Algorithm for Sparse Reward Continuous Control [13.324744655744624]
我々は、疎度な報酬を伴う強化学習の文脈において、Deep Deterministic Policy gradient (DDPG) を考慮する。
探索手順としてemph$epsilont$-greedyを導入する。
報酬のある遷移によって提供される情報をより効率的に利用するために、我々は新しいデュアルエクスペリエンスバッファーフレームワークを開発する。
結果として得られるアルゴリズムであるemphETGL-DDPGは、3つのテクニックをすべて統合する。
論文 参考訳(メタデータ) (2024-10-07T17:31:52Z) - Rethinking Model Selection and Decoding for Keyphrase Generation with
Pre-trained Sequence-to-Sequence Models [76.52997424694767]
キーフレーズ生成(英: Keyphrase Generation, KPG)は、NLPにおける長年の課題である。
Seq2seq 事前訓練言語モデル (PLM) は KPG に転換期を迎え、有望な性能改善をもたらした。
本稿では, PLM に基づく KPG におけるモデル選択と復号化戦略の影響について, 系統解析を行った。
論文 参考訳(メタデータ) (2023-10-10T07:34:45Z) - PID-Inspired Inductive Biases for Deep Reinforcement Learning in
Partially Observable Control Tasks [9.915787487970187]
PIDコントローラの成功を見ると、多くの制御タスクに時間をかけて情報を蓄積するためには、和と差分のみが必要であることが分かる。
PID機能を直接使用するアーキテクチャと、これらのコアアイデアを拡張して任意の制御タスクで使用できるアーキテクチャの2つを提案する。
タスクのトラッキングを超えて、当社のポリシーは従来の最先端メソッドよりも平均1.7倍高いパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-07-12T03:42:24Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Waypoint Models for Instruction-guided Navigation in Continuous
Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。
プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。
我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文 参考訳(メタデータ) (2021-10-05T17:55:49Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - A Closer Look at Temporal Sentence Grounding in Videos: Datasets and
Metrics [70.45937234489044]
2つの広く使用されているTSGVデータセット(Charades-STAとActivityNet Captions)を再編成し、トレーニング分割と異なるものにします。
基本的なIoUスコアを校正するために、新しい評価基準「dR@$n$,IoU@$m$」を導入する。
すべての結果は、再編成されたデータセットと新しいメトリクスがTSGVの進捗をよりよく監視できることを示している。
論文 参考訳(メタデータ) (2021-01-22T09:59:30Z) - The Effect of Multi-step Methods on Overestimation in Deep Reinforcement
Learning [6.181642248900806]
強化学習における多段階法(n段階法)は1段階法よりも効率的であることが示されている。
MDDPG と MMDDPG の両者は 1 段階バックアップによる DDPG よりも過大評価問題の影響が著しく小さいことを示す。
また、近似誤差を低減するために、多段階展開を行う様々な方法の利点と欠点についても論じる。
論文 参考訳(メタデータ) (2020-06-23T01:35:54Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Sample-based Distributional Policy Gradient [14.498314462218394]
連続行動空間制御設定のためのサンプルベース分散ポリシー勾配(SDPG)アルゴリズムを提案する。
提案アルゴリズムは,多くのタスクに対して,より優れたサンプル効率と高い報酬を示す。
SDPGとD4PGを複数のOpenAI Gym環境に適用し、我々のアルゴリズムが多くのタスクに対してより優れたサンプル効率と高い報酬を示すことを観察する。
論文 参考訳(メタデータ) (2020-01-08T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。