論文の概要: Online Adaptive Reinforcement Learning with Echo State Networks for Non-Stationary Dynamics
- arxiv url: http://arxiv.org/abs/2602.06326v1
- Date: Fri, 06 Feb 2026 02:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.196408
- Title: Online Adaptive Reinforcement Learning with Echo State Networks for Non-Stationary Dynamics
- Title(参考訳): 非定常ダイナミクスのためのエコー状態ネットワークを用いたオンライン適応強化学習
- Authors: Aoi Yoshimura, Gouhei Tanaka,
- Abstract要約: 本稿では,Reservoir Computingに基づく強化学習のための軽量オンライン適応フレームワークを提案する。
具体的には,Echo State Networks (ESNs) を適応モジュールとして統合し,最近の観測履歴を潜在文脈表現にエンコードする。
厳しい環境変化を伴うCartPoleおよびHalfCheetahタスクに対する提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 0.5745796568988237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) policies trained in simulation often suffer from severe performance degradation when deployed in real-world environments due to non-stationary dynamics. While Domain Randomization (DR) and meta-RL have been proposed to address this issue, they typically rely on extensive pretraining, privileged information, or high computational cost, limiting their applicability to real-time and edge systems. In this paper, we propose a lightweight online adaptation framework for RL based on Reservoir Computing. Specifically, we integrate an Echo State Networks (ESNs) as an adaptation module that encodes recent observation histories into a latent context representation, and update its readout weights online using Recursive Least Squares (RLS). This design enables rapid adaptation without backpropagation, pretraining, or access to privileged information. We evaluate the proposed method on CartPole and HalfCheetah tasks with severe and abrupt environment changes, including periodic external disturbances and extreme friction variations. Experimental results demonstrate that the proposed approach significantly outperforms DR and representative adaptive baselines under out-of-distribution dynamics, achieving stable adaptation within a few control steps. Notably, the method successfully handles intra-episode environment changes without resetting the policy. Due to its computational efficiency and stability, the proposed framework provides a practical solution for online adaptation in non-stationary environments and is well suited for real-world robotic control and edge deployment.
- Abstract(参考訳): シミュレーションで訓練された強化学習(RL)ポリシーは、非定常力学により実環境に配備された場合、厳しい性能劣化に悩まされることが多い。
ドメインランダム化(DR)とメタRLはこの問題に対処するために提案されているが、一般的には事前訓練、特権情報、あるいは高い計算コストに依存しており、リアルタイムシステムやエッジシステムに適用可能である。
本稿では,Reservoir Computingに基づくRLのための軽量なオンライン適応フレームワークを提案する。
具体的には、Echo State Networks (ESNs) を適応モジュールとして統合し、最近の観測履歴を潜在コンテキスト表現にエンコードし、Recursive Least Squares (RLS) を使用してその読み出し重みをオンラインで更新する。
この設計は、バックプロパゲーション、事前訓練、特権情報へのアクセスなしに、迅速な適応を可能にする。
我々は,CartPoleとHalfCheetahのタスクに対して,周期的な外乱や極端な摩擦変動を含む,厳しい,突然の環境変化を伴う手法を評価する。
実験の結果, 提案手法は, 分布外力学の下でDRおよび適応ベースラインを著しく上回り, いくつかの制御ステップで安定した適応を実現していることがわかった。
特に、ポリシーをリセットすることなく、エピソード内環境変化をうまく処理する。
その計算効率と安定性のため、提案するフレームワークは、非定常環境におけるオンライン適応のための実用的なソリューションを提供し、現実世界のロボット制御やエッジ展開に適している。
関連論文リスト
- TS-DP: Reinforcement Speculative Decoding For Temporal Adaptive Diffusion Policy Acceleration [64.32072516882947]
拡散ポリシーは、具体的制御が優れているが、高い推論遅延と計算コストに悩まされている。
時間認識強化に基づく投機的拡散政策(TS-DP)を提案する。
TS-DPは94%以上のドラフトで最大4.17倍高速な推論を実現し、推論周波数は25Hzに達した。
論文 参考訳(メタデータ) (2025-12-13T07:53:14Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - RISE: Robust Imitation through Stochastic Encoding [0.764671395172401]
本稿では,環境パラメータの誤った測定をポリシー学習に明示的に対応させる,新しい模倣学習フレームワークを提案する。
我々のフレームワークは、障害状態、向き、速度などのパラメータを潜在空間にエンコードし、テスト時間を改善する。
我々は,2つのロボットプラットフォームに対するアプローチを検証するとともに,目標達成性能をベースライン法と比較し,安全性の向上を図っている。
論文 参考訳(メタデータ) (2025-03-15T19:52:16Z) - Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - AURO: Reinforcement Learning for Adaptive User Retention Optimization in Recommender Systems [25.18963930580529]
強化学習(Reinforcement Learning, RL)は、レコメンデーションシステムにおけるユーザ保持の最適化能力に注目が集まっている。
本稿では,この課題に対処するため,textbfAdaptive textbfUser textbfRetention textbfOptimization (AURO) という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-06T02:45:21Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free
Deep Reinforcement Learning and Change Point Detection [34.77250498401055]
本稿では,車いすによる乗り合い環境における日中パターンを認識・適応できる適応型モデルフリー深部強化手法を提案する。
本論文では, 配車における適応論理に加えて, 動的かつ需要に応じた車両通行者マッチングと経路計画の枠組みを提案する。
論文 参考訳(メタデータ) (2021-04-01T02:14:01Z) - Few-shot model-based adaptation in noisy conditions [15.498933340900606]
本稿では,不確実性を考慮したカルマンフィルタに基づくニューラルネットワークアーキテクチャを用いて,雑音条件下での動的モデルの少数ショット適応を実現することを提案する。
提案手法は,ブラックボックス適応LSTMベースライン上での少数ショット適応誤差を改善する。
提案手法は,適応前後のモデル隠れ状態を解析することにより,システム解析を可能にする。
論文 参考訳(メタデータ) (2020-10-16T13:59:35Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。