論文の概要: Hi-Core: Hierarchical Knowledge Transfer for Continual Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2401.15098v1
- Date: Thu, 25 Jan 2024 03:06:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 20:02:35.660899
- Title: Hi-Core: Hierarchical Knowledge Transfer for Continual Reinforcement
Learning
- Title(参考訳): Hi-Core:継続的強化学習のための階層的知識伝達
- Authors: Chaofan Pan, Xin Yang, Hao Wang, Wei Wei, Tianrui Li
- Abstract要約: 継続的強化学習(CRL)は、RLエージェントに一連のタスクから学習し、以前の知識を保存し、それを活用して将来の学習を促進する能力を与える。
既存の手法は、人間の認知制御の階層構造を無視し、様々なタスク間での知識伝達が不十分になるような、類似のタスク間で低レベルな知識の伝達に焦点を当てることが多い。
目的設定にLLM(Large Language Model)の強力な推論能力を利用する高レベル政策定式化と,高レベル目標を指向したRLによる低レベル政策学習という2つの階層で構成されたHi-Coreを提案する。
- 参考スコア(独自算出の注目度): 15.837883929274758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual reinforcement learning (CRL) empowers RL agents with the ability to
learn from a sequence of tasks, preserving previous knowledge and leveraging it
to facilitate future learning. However, existing methods often focus on
transferring low-level knowledge across similar tasks, which neglects the
hierarchical structure of human cognitive control, resulting in insufficient
knowledge transfer across diverse tasks. To enhance high-level knowledge
transfer, we propose a novel framework named Hi-Core (Hierarchical knowledge
transfer for Continual reinforcement learning), which is structured in two
layers: 1) the high-level policy formulation which utilizes the powerful
reasoning ability of the Large Language Model (LLM) to set goals and 2) the
low-level policy learning through RL which is oriented by high-level goals.
Moreover, the knowledge base (policy library) is constructed to store policies
that can be retrieved for hierarchical knowledge transfer. Experiments
conducted in MiniGrid have demonstrated the effectiveness of Hi-Core in
handling diverse CRL tasks, outperforming popular baselines.
- Abstract(参考訳): 継続的強化学習(CRL)は、RLエージェントに一連のタスクから学習し、以前の知識を保存し、それを活用して将来の学習を促進する能力を与える。
しかし、既存の手法は、人間の認知制御の階層構造を無視し、様々なタスク間での知識伝達が不十分になるような、類似のタスク間で低レベルな知識の伝達に焦点を当てることが多い。
高レベルの知識伝達を強化するために,2つの層からなるhi-core(hierarchical knowledge transfer for continual reinforcement learning)という新しいフレームワークを提案する。
1)大言語モデル(LLM)の強力な推論能力を利用して目標を設定する高レベルの政策定式化
2)高レベルの目標を指向したRLによる低レベルの政策学習。
さらに、階層的な知識伝達のために検索可能なポリシーを保持するために、知識基盤(政治図書館)を構築している。
MiniGridで実施された実験では、多種多様なCRLタスクの処理におけるHi-Coreの有効性が実証されており、一般的なベースラインを上回っている。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Meta-Learning Integration in Hierarchical Reinforcement Learning for Advanced Task Complexity [0.0]
階層強化学習(HRL)は、それらを構造化されたポリシーに分解することで、複雑なタスクに効果的に取り組む。
我々は、メタラーニングをHRLに統合し、エージェントの学習能力を高め、階層的な政策を迅速に適応させる。
論文 参考訳(メタデータ) (2024-10-10T13:47:37Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Hierarchical Reinforcement Learning with Timed Subgoals [11.758625350317274]
Timed Subgoals (HiTS) を用いた階層型強化学習の導入
HiTSはエージェントがどの目標状態に到達すべきか、いつ到達するかを指定することで、そのタイミングを動的環境に適応させることを可能にする。
実験により,既存の最先端のサブゴールベースHRL法が安定した解を学習できない場合,本手法はサンプル効率のよい学習が可能であることが確認された。
論文 参考訳(メタデータ) (2021-12-06T15:11:19Z) - Hierarchical Reinforcement Learning By Discovering Intrinsic Options [18.041140234312934]
HIDIOは、タスク非依存の選択肢を自己指導的に学習し、それらを共同で学習してスパース・リワードのタスクを解く。
スパース・リワードロボット操作およびナビゲーションタスクの実験において、HIDIOはより高いサンプル効率で高い成功率を達成する。
論文 参考訳(メタデータ) (2021-01-16T20:54:31Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。