論文の概要: Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization
- arxiv url: http://arxiv.org/abs/2209.00347v2
- Date: Tue, 23 May 2023 19:03:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 03:23:33.920641
- Title: Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization
- Title(参考訳): 進行的文脈化による動的適応型連続強化学習
- Authors: Tiantian Zhang, Zichuan Lin, Yuxing Wang, Deheng Ye, Qiang Fu, Wei
Yang, Xueqian Wang, Bin Liang, Bo Yuan, and Xiu Li
- Abstract要約: 動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
- 参考スコア(独自算出の注目度): 29.61829620717385
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A key challenge of continual reinforcement learning (CRL) in dynamic
environments is to promptly adapt the RL agent's behavior as the environment
changes over its lifetime, while minimizing the catastrophic forgetting of the
learned information. To address this challenge, in this article, we propose
DaCoRL, i.e., dynamics-adaptive continual RL. DaCoRL learns a
context-conditioned policy using progressive contextualization, which
incrementally clusters a stream of stationary tasks in the dynamic environment
into a series of contexts and opts for an expandable multihead neural network
to approximate the policy. Specifically, we define a set of tasks with similar
dynamics as an environmental context and formalize context inference as a
procedure of online Bayesian infinite Gaussian mixture clustering on
environment features, resorting to online Bayesian inference to infer the
posterior distribution over contexts. Under the assumption of a Chinese
restaurant process prior, this technique can accurately classify the current
task as a previously seen context or instantiate a new context as needed
without relying on any external indicator to signal environmental changes in
advance. Furthermore, we employ an expandable multihead neural network whose
output layer is synchronously expanded with the newly instantiated context, and
a knowledge distillation regularization term for retaining the performance on
learned tasks. As a general framework that can be coupled with various deep RL
algorithms, DaCoRL features consistent superiority over existing methods in
terms of the stability, overall performance and generalization ability, as
verified by extensive experiments on several robot navigation and MuJoCo
locomotion tasks.
- Abstract(参考訳): 動的環境における連続強化学習(CRL)の鍵となる課題は、学習情報の破滅的な忘れを最小化しつつ、環境が生涯にわたって変化するにつれてRLエージェントの行動に迅速に適応することである。
この課題に対処するため、本稿では、動的適応連続RLであるDaCoRLを提案する。
DaCoRLは、プログレッシブな文脈化を使用してコンテキスト条件付きポリシーを学習し、動的環境内の定常タスクのストリームを一連のコンテキストに段階的にクラスタ化し、ポリシーを近似するために拡張可能なマルチヘッドニューラルネットワークを選択する。
具体的には、環境コンテキストとして類似のダイナミクスを持つタスクのセットを定義し、環境特徴に基づいてオンラインベイズ無限ガウス混合をクラスタリングする手法としてコンテキスト推論を形式化し、オンラインベイズ推論を用いてコンテキスト上の後続分布を推測する。
従来の中華料理店プロセスの想定では、現在のタスクを予め見たコンテキストに正確に分類したり、環境変化を事前に知らせる外部指標に頼ることなく、必要に応じて新しいコンテキストをインスタンス化することができる。
さらに、出力層が新たにインスタンス化されたコンテキストと同期的に拡張された拡張可能なマルチヘッドニューラルネットワークと、学習タスクの性能を維持するための知識蒸留規則化用語を用いる。
様々なディープRLアルゴリズムと組み合わせられる一般的なフレームワークとして、DaCoRLは、いくつかのロボットナビゲーションおよびMuJoCoロコモーションタスクに関する広範な実験によって検証され、安定性、全体的な性能、一般化能力の観点から、既存の手法よりも一貫した優位性を特徴としている。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning [4.902544998453533]
環境の重力レベルなどの文脈的手がかりの理解と活用は、堅牢な一般化に不可欠である。
提案アルゴリズムは, 様々なシミュレートされた領域における一般化を改良し, ゼロショット設定における事前の文脈学習技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-15T07:31:48Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Agent based modelling for continuously varying supply chains [4.163948606359882]
本稿では, エージェントが様々なサプライチェーン問題を制御できるかどうかを検討する。
最先端の強化学習(RL)アルゴリズムを2つ比較した。
結果は、バッチ環境で採用されるリーン戦略が、さまざまな製品を持つ環境で採用されている戦略と異なることを示している。
論文 参考訳(メタデータ) (2023-12-24T15:04:46Z) - Online Reinforcement Learning in Non-Stationary Context-Driven
Environments [13.898711495948254]
非定常環境におけるオンライン強化学習(RL)について検討する。
オンラインRLは「破滅的忘れ」 (CF) によってこのような環境において困難である
我々は,従来の経験に則った政策出力を固定することでCFと戦うオンラインRLアプローチであるローカル制約政策最適化(LCPO)を提示する。
論文 参考訳(メタデータ) (2023-02-04T15:31:19Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。