論文の概要: SDSRA: A Skill-Driven Skill-Recombination Algorithm for Efficient Policy
Learning
- arxiv url: http://arxiv.org/abs/2312.03216v1
- Date: Wed, 6 Dec 2023 01:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:30:40.671086
- Title: SDSRA: A Skill-Driven Skill-Recombination Algorithm for Efficient Policy
Learning
- Title(参考訳): sdsra:効率的な政策学習のためのスキル駆動スキル組換えアルゴリズム
- Authors: Eric H. Jiang and Andrew Lizarraga
- Abstract要約: SDSRA(Skill-Driven Skill Recombination Algorithm)は、強化学習タスクにおける最大エントロピーの効率を高める革新的なフレームワークである。
SDSRAは従来のSoft Actor-Critic(SAC)アルゴリズムよりも高速な収束を実現し、改善されたポリシーを生成する。
- 参考スコア(独自算出の注目度): 1.450405446885067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel algorithm - the Skill-Driven Skill
Recombination Algorithm (SDSRA) - an innovative framework that significantly
enhances the efficiency of achieving maximum entropy in reinforcement learning
tasks. We find that SDSRA achieves faster convergence compared to the
traditional Soft Actor-Critic (SAC) algorithm and produces improved policies.
By integrating skill-based strategies within the robust Actor-Critic framework,
SDSRA demonstrates remarkable adaptability and performance across a wide array
of complex and diverse benchmarks.
- Abstract(参考訳): 本稿では,SDSRA(Skill-Driven Skill Recombination Algorithm)という,強化学習タスクにおける最大エントロピーの効率を大幅に向上する,新しいアルゴリズムを提案する。
SDSRAは従来のSoft Actor-Critic(SAC)アルゴリズムよりも高速な収束を実現し、改善されたポリシーを生成する。
堅牢なアクタ-クリティックフレームワークにスキルベースの戦略を統合することで、sdsraは、幅広い複雑で多様なベンチマークで顕著な適応性とパフォーマンスを示している。
関連論文リスト
- Applying Incremental Learning in Binary-Addition-Tree Algorithm for Dynamic Binary-State Network Reliability [0.08158530638728499]
Binary-Addition-Treeアルゴリズム(BAT)は、ネットワークの信頼性と最適化問題を解決する強力な暗黙列挙法である。
漸進的な学習を導入することで、新たなデータやネットワークの変更に直面すると、BATが適応し、そのパフォーマンスを反復的に改善できるようになります。
論文 参考訳(メタデータ) (2024-09-24T04:13:03Z) - An Automatic Learning Rate Schedule Algorithm for Achieving Faster
Convergence and Steeper Descent [10.061799286306163]
実世界のニューラルネットワーク最適化におけるデルタバーデルタアルゴリズムの収束挙動について検討する。
RDBD(Regrettable Delta-Bar-Delta)と呼ばれる新しい手法を提案する。
提案手法は,バイアス付き学習率調整の迅速な修正を可能にし,最適化プロセスの収束を保証する。
論文 参考訳(メタデータ) (2023-10-17T14:15:57Z) - Diverse Policies Converge in Reward-free Markov Decision Processe [19.42193141047252]
我々は、多様性強化学習の枠組みを統一し、多様な政策の訓練の収束について検討する。
また,このような枠組みの下で,効率の良い多様性強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-23T05:17:51Z) - Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文 参考訳(メタデータ) (2023-05-27T02:05:41Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical
Multi-Step Approach for Policy Training [4.982806898121435]
本稿では,革新的な多段階統合手法に基づいて,基礎学習者のアンサンブルを訓練する手法を提案する。
本手法は,学習者間コラボレーションを効果的に促進するアンサンブルDRLのための新しい階層学習アルゴリズムの開発を可能にする。
また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-09-29T00:42:44Z) - An Improved Reinforcement Learning Algorithm for Learning to Branch [12.27934038849211]
ブランチ・アンド・バウンド(B&B)は最適化の一般的な方法である。
本稿では,新しい強化学習に基づくB&Bアルゴリズムを提案する。
提案アルゴリズムの性能を3つの公開研究ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-01-17T04:50:11Z) - An Efficient Asynchronous Method for Integrating Evolutionary and
Gradient-based Policy Search [76.73477450555046]
本稿では、ESの並列効率を最大化し、ポリシー勾配法と統合する非同期進化戦略強化学習(AES-RL)を提案する。
具体的には、(1)ESとDRLを非同期にマージする新しいフレームワークを提案し、2)非同期、ES、DRLのすべての利点を利用できる様々な非同期更新方法を提案する。
論文 参考訳(メタデータ) (2020-12-10T02:30:48Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。