Fugu-MT 論文翻訳(概要): Dynamics-Adaptive Continual Reinforcement Learning via Progressive Contextualization

論文の概要: Dynamics-Adaptive Continual Reinforcement Learning via Progressive Contextualization

arxiv url: http://arxiv.org/abs/2209.00347v2
Date: Tue, 23 May 2023 19:03:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 03:23:33.920641
Title: Dynamics-Adaptive Continual Reinforcement Learning via Progressive Contextualization
Title（参考訳）: 進行的文脈化による動的適応型連続強化学習
Authors: Tiantian Zhang, Zichuan Lin, Yuxing Wang, Deheng Ye, Qiang Fu, Wei Yang, Xueqian Wang, Bin Liang, Bo Yuan, and Xiu Li
Abstract要約: 動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。 DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。 DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
参考スコア（独自算出の注目度）: 29.61829620717385
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: A key challenge of continual reinforcement learning (CRL) in dynamic environments is to promptly adapt the RL agent's behavior as the environment changes over its lifetime, while minimizing the catastrophic forgetting of the learned information. To address this challenge, in this article, we propose DaCoRL, i.e., dynamics-adaptive continual RL. DaCoRL learns a context-conditioned policy using progressive contextualization, which incrementally clusters a stream of stationary tasks in the dynamic environment into a series of contexts and opts for an expandable multihead neural network to approximate the policy. Specifically, we define a set of tasks with similar dynamics as an environmental context and formalize context inference as a procedure of online Bayesian infinite Gaussian mixture clustering on environment features, resorting to online Bayesian inference to infer the posterior distribution over contexts. Under the assumption of a Chinese restaurant process prior, this technique can accurately classify the current task as a previously seen context or instantiate a new context as needed without relying on any external indicator to signal environmental changes in advance. Furthermore, we employ an expandable multihead neural network whose output layer is synchronously expanded with the newly instantiated context, and a knowledge distillation regularization term for retaining the performance on learned tasks. As a general framework that can be coupled with various deep RL algorithms, DaCoRL features consistent superiority over existing methods in terms of the stability, overall performance and generalization ability, as verified by extensive experiments on several robot navigation and MuJoCo locomotion tasks.
Abstract（参考訳）: 動的環境における連続強化学習(CRL)の鍵となる課題は、学習情報の破滅的な忘れを最小化しつつ、環境が生涯にわたって変化するにつれてRLエージェントの行動に迅速に適応することである。この課題に対処するため、本稿では、動的適応連続RLであるDaCoRLを提案する。 DaCoRLは、プログレッシブな文脈化を使用してコンテキスト条件付きポリシーを学習し、動的環境内の定常タスクのストリームを一連のコンテキストに段階的にクラスタ化し、ポリシーを近似するために拡張可能なマルチヘッドニューラルネットワークを選択する。具体的には、環境コンテキストとして類似のダイナミクスを持つタスクのセットを定義し、環境特徴に基づいてオンラインベイズ無限ガウス混合をクラスタリングする手法としてコンテキスト推論を形式化し、オンラインベイズ推論を用いてコンテキスト上の後続分布を推測する。従来の中華料理店プロセスの想定では、現在のタスクを予め見たコンテキストに正確に分類したり、環境変化を事前に知らせる外部指標に頼ることなく、必要に応じて新しいコンテキストをインスタンス化することができる。さらに、出力層が新たにインスタンス化されたコンテキストと同期的に拡張された拡張可能なマルチヘッドニューラルネットワークと、学習タスクの性能を維持するための知識蒸留規則化用語を用いる。様々なディープRLアルゴリズムと組み合わせられる一般的なフレームワークとして、DaCoRLは、いくつかのロボットナビゲーションおよびMuJoCoロコモーションタスクに関する広範な実験によって検証され、安定性、全体的な性能、一般化能力の観点から、既存の手法よりも一貫した優位性を特徴としている。

関連論文リスト

Zero-Shot Context Generalization in Reinforcement Learning from Few Training Contexts [1.5020330976600738]
我々は,コンテキスト強化ベルマン方程式(CEBE)を導入し,単一コンテキストでの学習時の一般化を改善する。我々は,CEBEを決定論的制御環境で近似するための効率的なデータ拡張手法として,文脈サンプル拡張(CSE)を導出する。
論文参考訳（メタデータ） (2025-07-10T00:23:13Z)
Scalable In-Context Q-Learning [42.80296905313835]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。 textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文参考訳（メタデータ） (2025-06-02T04:21:56Z)
Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文参考訳（メタデータ） (2024-11-18T08:20:21Z)
Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning [4.902544998453533]
環境の重力レベルなどの文脈的手がかりの理解と活用は、堅牢な一般化に不可欠である。提案アルゴリズムは, 様々なシミュレートされた領域における一般化を改良し, ゼロショット設定における事前の文脈学習技術より優れていることを示す。
論文参考訳（メタデータ） (2024-04-15T07:31:48Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Agent based modelling for continuously varying supply chains [4.163948606359882]
本稿では, エージェントが様々なサプライチェーン問題を制御できるかどうかを検討する。最先端の強化学習(RL)アルゴリズムを2つ比較した。結果は、バッチ環境で採用されるリーン戦略が、さまざまな製品を持つ環境で採用されている戦略と異なることを示している。
論文参考訳（メタデータ） (2023-12-24T15:04:46Z)
Online Reinforcement Learning in Non-Stationary Context-Driven Environments [13.898711495948254]
非定常環境におけるオンライン強化学習(RL)について検討する。オンラインRLは「破滅的忘れ」 (CF) によってこのような環境において困難である我々は,従来の経験に則った政策出力を固定することでCFと戦うオンラインRLアプローチであるローカル制約政策最適化(LCPO)を提示する。
論文参考訳（メタデータ） (2023-02-04T15:31:19Z)
An Adaptive Deep RL Method for Non-Stationary Environments with Piecewise Stable Context [109.49663559151377]
未知の環境コンテキストへの適応に関する既存の作業は、コンテキストが全エピソードで同じであると仮定するか、コンテキスト変数がマルコフ的であると仮定するかのどちらかである。本稿では,textittextbfSegmented textbfContext textbfBelief textbfAugmented textbfDeep(SeCBAD) RL法を提案する。提案手法は,潜在コンテキスト上の信念分布と後方セグメント長とを共同で推定し,観測データを用いたより正確な信念コンテキスト推定を行う。
論文参考訳（メタデータ） (2022-12-24T13:43:39Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)
Learning to Continuously Optimize Wireless Resource In Episodically Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文参考訳（メタデータ） (2020-11-16T08:24:34Z)
Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文参考訳（メタデータ） (2020-06-18T17:34:50Z)
Robust Reinforcement Learning via Adversarial training with Langevin Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-14T14:59:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。