論文の概要: Sample Efficient Experience Replay in Non-stationary Environments
- arxiv url: http://arxiv.org/abs/2509.15032v1
- Date: Thu, 18 Sep 2025 14:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.280052
- Title: Sample Efficient Experience Replay in Non-stationary Environments
- Title(参考訳): 非定常環境におけるサンプル有効体験再生
- Authors: Tianyang Duan, Zongyuan Zhang, Songxiao Guo, Yuanye Zhao, Zheng Lin, Zihan Fang, Yi Liu, Dianxin Luan, Dong Huang, Heming Cui, Yong Cui,
- Abstract要約: 非定常環境における強化学習(RL)は、ダイナミクスや報酬の変化によって過去の経験が急速に時代遅れになるため、困難である。
従来の経験リプレイ(ER)法、特にTDエラー優先順位付け法は、エージェントのポリシーによって引き起こされる変化と環境から引き起こされる変化を区別するのに苦労する。
本稿では、ポリシー更新と環境変更の両方に基づいて遷移を優先順位付けする適応型ERフレームワークである、環境優先体験再生(DEER)について紹介する。
- 参考スコア(独自算出の注目度): 19.296439615052133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) in non-stationary environments is challenging, as changing dynamics and rewards quickly make past experiences outdated. Traditional experience replay (ER) methods, especially those using TD-error prioritization, struggle to distinguish between changes caused by the agent's policy and those from the environment, resulting in inefficient learning under dynamic conditions. To address this challenge, we propose the Discrepancy of Environment Dynamics (DoE), a metric that isolates the effects of environment shifts on value functions. Building on this, we introduce Discrepancy of Environment Prioritized Experience Replay (DEER), an adaptive ER framework that prioritizes transitions based on both policy updates and environmental changes. DEER uses a binary classifier to detect environment changes and applies distinct prioritization strategies before and after each shift, enabling more sample-efficient learning. Experiments on four non-stationary benchmarks demonstrate that DEER further improves the performance of off-policy algorithms by 11.54 percent compared to the best-performing state-of-the-art ER methods.
- Abstract(参考訳): 非定常環境における強化学習(RL)は、ダイナミクスや報酬の変化によって過去の経験が急速に時代遅れになるため、困難である。
従来の経験リプレイ(ER)法、特にTDエラー優先順位付け法は、エージェントのポリシーによって引き起こされる変化と環境から引き起こされる変化を区別するのに苦労し、動的条件下では非効率な学習をもたらす。
この課題に対処するために,環境変動が価値関数に与える影響を分離する指標であるDEC(Disdisrepancy of Environment Dynamics)を提案する。
これに基づいて,政策更新と環境変更の両方に基づいて遷移を優先順位付けする適応型ERフレームワークである,環境優先体験再生(DEER)について紹介する。
DEERはバイナリ分類器を使用して環境変化を検出し、シフト前後に異なる優先順位付け戦略を適用し、よりサンプル効率のよい学習を可能にする。
4つの非定常ベンチマークの実験により、DEERは、最先端のER手法と比較して、非政治アルゴリズムのパフォーマンスをさらに11.54パーセント向上することを示した。
関連論文リスト
- Efficient Adaptation of Reinforcement Learning Agents to Sudden Environmental Change [0.0]
現実の自律的な意思決定システムは、時間とともに変化する環境で運用されなければならない。
深い強化学習は、静止環境で最適なポリシーを学習する素晴らしい能力を示している。
この論文は、効率的なオンライン適応には2つの重要な機能が必要であることを示している。
論文 参考訳(メタデータ) (2025-05-15T14:19:01Z) - Reward Prediction Error Prioritisation in Experience Replay: The RPE-PER Method [1.600323605807673]
Reward Predictive Error Prioritised Experience Replay (RPE-PER)を紹介する。
RPE-PERは、RPEに基づいてバッファ内での経験を優先する。
本手法では,標準的な批評家ネットワークが生成するQ値に加えて,報酬を予測する批評家ネットワークであるEMCNを用いる。
論文 参考訳(メタデータ) (2025-01-30T02:09:35Z) - A Behavior-Aware Approach for Deep Reinforcement Learning in Non-stationary Environments without Known Change Points [30.077746056549678]
本研究では,環境変化検出と行動適応を融合させる革新的なフレームワークである行動認識検出適応(BADA)を紹介する。
我々の手法の背後にある重要なインスピレーションは、ポリシーが環境の変化に異なるグローバルな振る舞いを示すことである。
一連の実験の結果は、現在のアルゴリズムと比較して優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-23T06:17:26Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Towards Lifelong Learning of End-to-end ASR [81.15661413476221]
lifelong learningは、マシンが新しいデータセットから新しいタスクをシーケンシャルに学習できるようにすることを目的としている。
WERの28.7%の相対的な減少は、3つの非常に異なるベンチマークコーポラを順次学習する場合の微調整ベースラインと比較して達成された。
論文 参考訳(メタデータ) (2021-04-04T13:48:53Z) - Dynamic Regret of Policy Optimization in Non-stationary Environments [120.01408308460095]
我々は,POWERとPOWER++の2つのモデルフリーポリシー最適化アルゴリズムを提案し,その動的後悔の保証を確立する。
我々はPOWER++が動的後悔の第2の構成要素であるPOWERよりも優れており、予測によって非定常性に積極的に適応していることを示す。
我々の知識を最大限に活用するために、我々の研究は、非定常環境におけるモデルフリーなRLアルゴリズムの、最初の動的後悔分析である。
論文 参考訳(メタデータ) (2020-06-30T23:34:37Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。