論文の概要: Hierarchical Continual Reinforcement Learning via Large Language Model
- arxiv url: http://arxiv.org/abs/2401.15098v2
- Date: Thu, 1 Feb 2024 11:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-02-02 18:28:53.234230
- Title: Hierarchical Continual Reinforcement Learning via Large Language Model
- Title(参考訳): 大規模言語モデルによる階層型連続強化学習
- Authors: Chaofan Pan, Xin Yang, Hao Wang, Wei Wei, Tianrui Li
- Abstract要約: Hi-Coreはハイレベルな知識の伝達を容易にするように設計されている。
大規模言語モデル(LLM)による高レベルポリシー定式化
Hi-Coreは様々なCRLタスクの処理の有効性を示しており、一般的なベースラインを上回っている。
- 参考スコア(独自算出の注目度): 15.837883929274758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to learn continuously in dynamic environments is a crucial
requirement for reinforcement learning (RL) agents applying in the real world.
Despite the progress in continual reinforcement learning (CRL), existing
methods often suffer from insufficient knowledge transfer, particularly when
the tasks are diverse. To address this challenge, we propose a new framework,
Hierarchical Continual reinforcement learning via large language model
(Hi-Core), designed to facilitate the transfer of high-level knowledge. Hi-Core
orchestrates a twolayer structure: high-level policy formulation by a large
language model (LLM), which represents agenerates a sequence of goals, and
low-level policy learning that closely aligns with goal-oriented RL practices,
producing the agent's actions in response to the goals set forth. The framework
employs feedback to iteratively adjust and verify highlevel policies, storing
them along with low-level policies within a skill library. When encountering a
new task, Hi-Core retrieves relevant experience from this library to help to
learning. Through experiments on Minigrid, Hi-Core has demonstrated its
effectiveness in handling diverse CRL tasks, which outperforms popular
baselines.
- Abstract(参考訳): 動的環境で継続的に学習する能力は、現実世界に適用する強化学習(rl)エージェントにとって重要な要件である。
継続強化学習(CRL)の進歩にもかかわらず、既存の手法では知識伝達が不十分な場合が多い。
そこで本研究では,ハイレベル知識の伝達を容易にするために,大規模言語モデル(hi-core)による階層型連続的強化学習という新しい枠組みを提案する。
hi-coreは2層構造を編成する: 大きな言語モデル(llm)によるハイレベルなポリシー定式化、目標のシーケンスを熟成する低レベルポリシー学習、目標指向のrlプラクティスと密接に整合する低レベルポリシー学習。
このフレームワークはフィードバックを使って、高いレベルのポリシーを反復的に調整し、検証し、スキルライブラリ内の低レベルのポリシーと共に保存する。
新しいタスクに遭遇すると、hi-coreはこのライブラリから関連する経験を取得して学習する。
Minigridの実験を通じて、Hi-CoreはさまざまなCRLタスクの処理の有効性を実証した。
関連論文リスト
- OmniRL: In-Context Reinforcement Learning by Large-Scale Meta-Training in Randomized Worlds [35.652208216209985]
我々は、数十万の多様なタスクをメタトレーニングした、高度に一般化可能なコンテキスト内強化学習モデルであるOmniRLを紹介した。
インコンテキスト学習(ICL)だけでは、勾配に基づく微調整を一切行わず、目に見えない体育館のタスクにうまく対応できることを初めて実証した。
論文 参考訳(メタデータ) (2025-02-05T03:59:13Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Meta-Learning Integration in Hierarchical Reinforcement Learning for Advanced Task Complexity [0.0]
階層強化学習(HRL)は、それらを構造化されたポリシーに分解することで、複雑なタスクに効果的に取り組む。
我々は、メタラーニングをHRLに統合し、エージェントの学習能力を高め、階層的な政策を迅速に適応させる。
論文 参考訳(メタデータ) (2024-10-10T13:47:37Z) - M2Distill: Multi-Modal Distillation for Lifelong Imitation Learning [9.15567555909617]
M2Distillは、生涯の模倣学習のためのマルチモーダル蒸留に基づく方法である。
我々は、前段階から現在の段階まで、様々なモダリティにわたる潜在表現のシフトを規制する。
学習したポリシーが、新しいスキルをシームレスに統合しながら、以前に学習したタスクを実行する能力を維持していることを保証します。
論文 参考訳(メタデータ) (2024-09-30T01:43:06Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Robust Policy Learning via Offline Skill Diffusion [6.876580618014666]
本稿では,新しいオフラインスキル学習フレームワークDuSkillを紹介する。
DuSkillはガイド付き拡散モデルを使用して、データセットの限られたスキルから拡張された多目的スキルを生成する。
我々は,DuSkillが複数の長期タスクに対して,他のスキルベースの模倣学習やRLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-01T02:00:44Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Lifelong Reinforcement Learning with Modulating Masks [16.24639836636365]
生涯学習は、生物学的学習と同様、生涯を通じて継続的に漸進的に学習するAIシステムを作成することを目的としている。
これまでの試みでは、破滅的な忘れ、タスク間の干渉、過去の知識を活用できないといった問題に直面してきた。
マスクによる生涯強化学習は、生涯学習、より複雑なタスクを学習するための知識の構成、より効率的かつ高速な学習のための知識再利用への有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2022-12-21T15:49:20Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Multi-Source Transfer Learning for Deep Model-Based Reinforcement
Learning [0.6445605125467572]
強化学習における重要な課題は、エージェントが与えられたタスクをマスターするために必要な環境との相互作用の数を減らすことである。
伝達学習は、以前に学習したタスクから知識を再利用することでこの問題に対処することを提案する。
本研究の目的は,モジュール型マルチソーストランスファー学習技術を用いて,これらの課題に対処することである。
論文 参考訳(メタデータ) (2022-05-28T12:04:52Z) - Transferability in Deep Learning: A Survey [80.67296873915176]
知識を習得し再利用する能力は、ディープラーニングにおける伝達可能性として知られている。
本研究は,深層学習における異なる孤立領域と伝達可能性との関係を関連付けるための調査である。
我々はベンチマークとオープンソースライブラリを実装し、転送可能性の観点からディープラーニング手法の公平な評価を可能にする。
論文 参考訳(メタデータ) (2022-01-15T15:03:17Z) - Hierarchical Reinforcement Learning with Timed Subgoals [11.758625350317274]
Timed Subgoals (HiTS) を用いた階層型強化学習の導入
HiTSはエージェントがどの目標状態に到達すべきか、いつ到達するかを指定することで、そのタイミングを動的環境に適応させることを可能にする。
実験により,既存の最先端のサブゴールベースHRL法が安定した解を学習できない場合,本手法はサンプル効率のよい学習が可能であることが確認された。
論文 参考訳(メタデータ) (2021-12-06T15:11:19Z) - Hierarchical Reinforcement Learning By Discovering Intrinsic Options [18.041140234312934]
HIDIOは、タスク非依存の選択肢を自己指導的に学習し、それらを共同で学習してスパース・リワードのタスクを解く。
スパース・リワードロボット操作およびナビゲーションタスクの実験において、HIDIOはより高いサンプル効率で高い成功率を達成する。
論文 参考訳(メタデータ) (2021-01-16T20:54:31Z) - Knowledge Transfer in Multi-Task Deep Reinforcement Learning for
Continuous Control [65.00425082663146]
連続制御のための知識伝達に基づく多タスク深層強化学習フレームワーク(KTM-DRL)を提案する。
KTM-DRLでは、マルチタスクエージェントがまずオフラインの知識伝達アルゴリズムを利用して、タスク固有の教師の経験から制御ポリシーを素早く学習する。
実験結果は,KTM-DRLとその知識伝達とオンライン学習アルゴリズムの有効性を正当化するとともに,最先端技術よりも大きなマージンによる優位性を示した。
論文 参考訳(メタデータ) (2020-10-15T03:26:47Z) - Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。
連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文 参考訳(メタデータ) (2020-07-30T16:00:23Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Curriculum Learning for Reinforcement Learning Domains: A Framework and
Survey [53.73359052511171]
強化学習(Reinforcement Learning, RL)は、エージェントが限られた環境フィードバックしか持たないシーケンシャルな意思決定タスクに対処するための一般的なパラダイムである。
本稿では、RLにおけるカリキュラム学習(CL)の枠組みを提案し、既存のCLメソッドを仮定、能力、目標の観点から調査・分類する。
論文 参考訳(メタデータ) (2020-03-10T20:41:24Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。