論文の概要: Optimizing Deep Reinforcement Learning for Adaptive Robotic Arm Control
- arxiv url: http://arxiv.org/abs/2407.02503v1
- Date: Wed, 12 Jun 2024 15:06:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-07 13:24:39.549425
- Title: Optimizing Deep Reinforcement Learning for Adaptive Robotic Arm Control
- Title(参考訳): 適応型ロボットアーム制御のための深部強化学習の最適化
- Authors: Jonaid Shianifar, Michael Schukat, Karl Mason,
- Abstract要約: TPE(Tree-structured Parzen Estimator)は、SACの成功率を10.48ポイント、PPOを34.28ポイント改善する。
TPEは、PPOが最大報酬の95%以内の報酬に収束することを可能にする。
- 参考スコア(独自算出の注目度): 1.2289361708127877
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we explore the optimization of hyperparameters for the Soft Actor-Critic (SAC) and Proximal Policy Optimization (PPO) algorithms using the Tree-structured Parzen Estimator (TPE) in the context of robotic arm control with seven Degrees of Freedom (DOF). Our results demonstrate a significant enhancement in algorithm performance, TPE improves the success rate of SAC by 10.48 percentage points and PPO by 34.28 percentage points, where models trained for 50K episodes. Furthermore, TPE enables PPO to converge to a reward within 95% of the maximum reward 76% faster than without TPE, which translates to about 40K fewer episodes of training required for optimal performance. Also, this improvement for SAC is 80% faster than without TPE. This study underscores the impact of advanced hyperparameter optimization on the efficiency and success of deep reinforcement learning algorithms in complex robotic tasks.
- Abstract(参考訳): 本稿では,7自由度(DOF)を用いたロボットアーム制御の文脈において,木構造パーゼン推定器(TPE)を用いたソフトアクタクリティカル(SAC)アルゴリズムとPPOアルゴリズムのハイパーパラメータ最適化について検討する。
その結果,アルゴリズム性能が大幅に向上し,TPEはSACの成功率を10.48ポイント,PPOは34.28ポイント向上し,50Kエピソードのトレーニングモデルが得られた。
さらに、TPEは、PPOが最大報酬の95%以内の報酬に収束することを可能にする。
また、SACのこの改善はTPEを使わずに80%高速である。
本研究は,高度ハイパーパラメータ最適化が複雑なロボット作業における深部強化学習アルゴリズムの効率性と成功に及ぼす影響を明らかにするものである。
関連論文リスト
- A Plug-and-Play Fully On-the-Job Real-Time Reinforcement Learning Algorithm for a Direct-Drive Tandem-Wing Experiment Platforms Under Multiple Random Operating Conditions [0.0]
Concerto Reinforcement Learning Extension (CRL2E)アルゴリズムが開発された。
このプラグ・アンド・プレイのリアルタイム強化学習アルゴリズムは、新しい物理インスパイアされたルールベースのポリシー構成戦略を取り入れている。
ハードウェアテストでは、最適化された軽量ネットワーク構造が、リアルタイムの制御要件を満たす、重み付けと平均推論時間に優れていることが示されている。
論文 参考訳(メタデータ) (2024-10-21T00:59:50Z) - CodeACT: Code Adaptive Compute-efficient Tuning Framework for Code LLMs [30.441431693349866]
既存の方法は、微調整のための膨大な量の合成データを生成し、訓練の効率を損なう。
CodeACTはCDAS(Complexity and Diversity Aware Smpling)メソッドを導入し、高品質なトレーニングデータを選択する。
CodeACTはHumanEvalのパフォーマンスが8.6%向上し、トレーニング時間を78%削減し、ピーク時のGPUメモリ使用量を27%削減した。
論文 参考訳(メタデータ) (2024-08-05T02:38:48Z) - HiDe-PET: Continual Learning via Hierarchical Decomposition of Parameter-Efficient Tuning [55.88910947643436]
予備学習モデル(PTM)とパラメータ効率チューニング(PET)を組み合わせた連続学習(CL)統合フレームワークを提案する。
タスク固有知識とタスク共有知識を取り入れることで目的を明示的に最適化する革新的な手法である階層分解PET(HiDe-PET)を提案する。
提案手法は,近年の強いベースラインの幅広いスペクトルに対して,極めて優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-07T01:50:25Z) - APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference [63.52244442498831]
大規模言語モデル(LM)による微調整と推論は一般的に高価であることが知られている。
LMのパラメータを適応的にプーンし調整するAPTを導入する。
APTは、LMの微調整を最大8倍高速化し、LMのメモリトレーニングのフットプリントを最大70%削減する。
論文 参考訳(メタデータ) (2024-01-22T18:39:40Z) - Speeding Up Multi-Objective Hyperparameter Optimization by Task
Similarity-Based Meta-Learning for the Tree-Structured Parzen Estimator [37.553558410770314]
本稿では,タスク間のトップドメインの重複によって定義されるタスク類似性を用いて,TPEの取得機能をメタラーニング設定に拡張する。
実験では,表付きHPOベンチマークでMO-TPEを高速化し,最先端の性能が得られることを示した。
論文 参考訳(メタデータ) (2022-12-13T17:33:02Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Towards Scaling Difference Target Propagation by Learning Backprop
Targets [64.90165892557776]
Different Target Propagationは,Gauss-Newton(GN)最適化と密接な関係を持つ生物学的に証明可能な学習アルゴリズムである。
本稿では、DTPがBPを近似し、階層的なフィードバックウェイトトレーニングを復元できる新しいフィードバックウェイトトレーニング手法を提案する。
CIFAR-10 と ImageNet 上で DTP が達成した最高の性能について報告する。
論文 参考訳(メタデータ) (2022-01-31T18:20:43Z) - Adaptive Activation-based Structured Pruning [5.445935252764351]
プルーニングは、複雑なディープラーニングモデルを圧縮してリソース制約のあるエッジデバイスにデプロイするための、有望なアプローチである。
本稿では, 適応型, アクティベーションベース, 構造化プルーニング手法を用いて, 小型, 高精度, ハードウェア効率のモデルを自動的に, 効率的に生成する手法を提案する。
包括的評価により, 提案手法は, 最先端の構造化プルーニング作業よりも大幅に優れることが示された。
論文 参考訳(メタデータ) (2022-01-21T22:21:31Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - Improving Auto-Augment via Augmentation-Wise Weight Sharing [123.71986174280741]
自動拡張検索の重要な要素は、特定の拡張ポリシーの評価プロセスである。
本稿では,モデルの強化トレーニングのダイナミクスについて検討する。
我々は,Augmentation-Wise Weight Sharing (AWS)に基づいて,高速かつ高精度な評価プロセスを構築するために,強力で効率的なプロキシタスクを設計する。
論文 参考訳(メタデータ) (2020-09-30T15:23:12Z) - Data Efficient Training for Reinforcement Learning with Adaptive
Behavior Policy Sharing [29.283554268767805]
大規模医療やレコメンデーションシステムといった実世界の応用において、深層RLモデルのトレーニングは困難である。
本稿では、行動ポリシーによって収集された経験の共有を可能にするデータ効率のトレーニングアルゴリズムである適応行動ポリシー共有(ABPS)を提案する。
論文 参考訳(メタデータ) (2020-02-12T20:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。