論文の概要: A Method for Fast Autonomy Transfer in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.20466v1
- Date: Mon, 29 Jul 2024 23:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 18:38:42.386415
- Title: A Method for Fast Autonomy Transfer in Reinforcement Learning
- Title(参考訳): 強化学習における高速自律移動法
- Authors: Dinuka Sahabandu, Bhaskar Ramasubramanian, Michail Alexiou, J. Sukarno Mertoguno, Linda Bushnell, Radha Poovendran,
- Abstract要約: 本稿では、迅速な自律移行を容易にするために、新しい強化学習(RL)戦略を提案する。
大規模なリトレーニングや微調整を必要とする従来の手法とは異なり、我々の手法は既存の知識を統合し、RLエージェントが新しい設定に迅速に適応できるようにする。
- 参考スコア(独自算出の注目度): 3.8049020806504967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel reinforcement learning (RL) strategy designed to facilitate rapid autonomy transfer by utilizing pre-trained critic value functions from multiple environments. Unlike traditional methods that require extensive retraining or fine-tuning, our approach integrates existing knowledge, enabling an RL agent to adapt swiftly to new settings without requiring extensive computational resources. Our contributions include development of the Multi-Critic Actor-Critic (MCAC) algorithm, establishing its convergence, and empirical evidence demonstrating its efficacy. Our experimental results show that MCAC significantly outperforms the baseline actor-critic algorithm, achieving up to 22.76x faster autonomy transfer and higher reward accumulation. This advancement underscores the potential of leveraging accumulated knowledge for efficient adaptation in RL applications.
- Abstract(参考訳): 本稿では,複数の環境から事前学習した批評家の価値関数を活用することにより,迅速な自律移動を促進するための新しい強化学習(RL)戦略を提案する。
大規模なリトレーニングや微調整を必要とする従来の手法とは異なり、我々の手法は既存の知識を統合し、RLエージェントが広範な計算資源を必要とせずに、新しい設定に迅速に適応できるようにする。
我々の貢献には、マルチクリティカル・アクター・クリティカル(MCAC)アルゴリズムの開発、その収束の確立、その有効性を示す実証的証拠が含まれる。
実験の結果,MCACは,最大22.76倍の自律移動とより高い報酬蓄積を達成し,ベースラインアクター批判アルゴリズムを著しく上回ることがわかった。
この進歩は、RL応用における効率的な適応のために蓄積した知識を活用する可能性を示している。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Scalable Volt-VAR Optimization using RLlib-IMPALA Framework: A
Reinforcement Learning Approach [11.11570399751075]
本研究は, 深層強化学習(DRL)の可能性を活用した新しい枠組みを提案する。
DRLエージェントをRAYプラットフォームに統合することにより、RAYのリソースを効率的に利用してシステム適応性と制御を改善する新しいフレームワークであるRLlib-IMPALAの開発が容易になる。
論文 参考訳(メタデータ) (2024-02-24T23:25:35Z) - An advantage based policy transfer algorithm for reinforcement learning
with metrics of transferability [6.660458629649826]
強化学習(Reinforcement Learning, RL)は, 複雑・高次元環境における逐次的意思決定を可能にする。
トランスファーRLアルゴリズムは、1つまたは複数のソース環境からターゲット環境への知識の転送に使用できる。
本稿では、固定されたドメイン環境に対する非政治アドバンテージベースのポリシー転送アルゴリズムであるAPT-RLを提案する。
論文 参考訳(メタデータ) (2023-11-12T04:25:53Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Lean Evolutionary Reinforcement Learning by Multitasking with Importance
Sampling [20.9680985132322]
本稿では,新しいニューロ進化的マルチタスク(NuEMT)アルゴリズムを導入し,一連の補助タスクからターゲット(フル長)RLタスクへ情報を伝達する。
我々は、NuEMTアルゴリズムがデータ-リーン進化RLであり、高価なエージェント-環境相互作用データ要求を減らすことを実証する。
論文 参考訳(メタデータ) (2022-03-21T10:06:16Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - KnowRU: Knowledge Reusing via Knowledge Distillation in Multi-agent
Reinforcement Learning [16.167201058368303]
深層強化学習(RL)アルゴリズムはマルチエージェント領域において劇的に進歩している。
この問題を解決するには、歴史的経験の効率的な活用が不可欠です。
知識再利用のための「KnowRU」という手法を提案する。
論文 参考訳(メタデータ) (2021-03-27T12:38:01Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。