論文の概要: Curriculum-based Asymmetric Multi-task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.03352v1
- Date: Mon, 7 Nov 2022 08:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 18:06:35.013840
- Title: Curriculum-based Asymmetric Multi-task Reinforcement Learning
- Title(参考訳): カリキュラムに基づく非対称マルチタスク強化学習
- Authors: Hanchi Huang, Deheng Ye, Li Shen, Wei Liu
- Abstract要約: 本稿では,複数の強化学習(RL)タスクを完全に処理するための,最初のカリキュラムベースの非対称マルチタスク学習(AMTL)アルゴリズムであるCAMRLを紹介する。
カリキュラムベースAMTLにおけるワンオフトレーニング順序のカスタマイズによる負の影響を軽減するため、CAMRLは並列シングルタスクRLと非対称マルチタスクRL(MTRL)間のトレーニングモードを切り替える
我々は、Gym-minigrid、Meta-world、Atariビデオゲーム、視覚ベースのPyBulletタスク、RLBenchを含むマルチタスクRLの幅広いベンチマーク実験を行った。
- 参考スコア(独自算出の注目度): 14.5357225087828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CAMRL, the first curriculum-based asymmetric multi-task learning
(AMTL) algorithm for dealing with multiple reinforcement learning (RL) tasks
altogether. To mitigate the negative influence of customizing the one-off
training order in curriculum-based AMTL, CAMRL switches its training mode
between parallel single-task RL and asymmetric multi-task RL (MTRL), according
to an indicator regarding the training time, the overall performance, and the
performance gap among tasks. To leverage the multi-sourced prior knowledge
flexibly and to reduce negative transfer in AMTL, we customize a composite loss
with multiple differentiable ranking functions and optimize the loss through
alternating optimization and the Frank-Wolfe algorithm. The uncertainty-based
automatic adjustment of hyper-parameters is also applied to eliminate the need
of laborious hyper-parameter analysis during optimization. By optimizing the
composite loss, CAMRL predicts the next training task and continuously revisits
the transfer matrix and network weights. We have conducted experiments on a
wide range of benchmarks in multi-task RL, covering Gym-minigrid, Meta-world,
Atari video games, vision-based PyBullet tasks, and RLBench, to show the
improvements of CAMRL over the corresponding single-task RL algorithm and
state-of-the-art MTRL algorithms. The code is available at:
https://github.com/huanghanchi/CAMRL
- Abstract(参考訳): camrlは,複数の強化学習(rl)タスクをすべて扱うための,最初のカリキュラムベースの非対称マルチタスク学習(amtl)アルゴリズムである。
カリキュラムベースAMTLにおけるワンオフトレーニング順序のカスタマイズによる悪影響を軽減するため、CAMRLは、トレーニング時間、全体的なパフォーマンス、タスク間のパフォーマンスギャップに関する指標に基づいて、並列シングルタスクRLと非対称マルチタスクRL(MTRL)のトレーニングモードを切り替える。
マルチソースの事前知識を柔軟に活用し、AMTLにおける負の伝達を低減すべく、複数の異なるランク関数を持つ合成損失をカスタマイズし、交互最適化とFrank-Wolfeアルゴリズムを用いて損失を最適化する。
また,不確実性に基づくハイパーパラメータの自動調整も適用され,最適化時の厳密なハイパーパラメータ解析の必要性が排除された。
複合損失を最適化することにより、CAMRLは次のトレーニングタスクを予測し、転送行列とネットワーク重みを継続的に再検討する。
我々は,Gym-minigrid,Meta-world,Atariビデオゲーム,ビジョンベースのPyBulletタスク,RLBenchなど,マルチタスクRLの幅広いベンチマーク実験を行い,対応するシングルタスクRLアルゴリズムと最先端MTRLアルゴリズムに対するCAMRLの改善を示す。
コードは、https://github.com/huanghanchi/CAMRLで入手できる。
関連論文リスト
- Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Hypernetworks for Zero-shot Transfer in Reinforcement Learning [21.994654567458017]
Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。
この研究はメタRL、文脈RL、伝達学習に関連している。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-28T15:48:35Z) - Hypernetworks in Meta-Reinforcement Learning [47.25270748922176]
マルチタスク強化学習(RL)とメタRLは、関連するタスクの分布を一般化することにより、サンプル効率を向上させることを目的としている。
最先端の手法はしばしば、各タスクを個別に学習する退化したソリューションよりも優れている。
Hypernetworksは、退化ソリューションの別々のポリシーを複製し、メタRLに適用できるので、将来性のある道です。
論文 参考訳(メタデータ) (2022-10-20T15:34:52Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。