論文の概要: Forecasting in Offline Reinforcement Learning for Non-stationary Environments
- arxiv url: http://arxiv.org/abs/2512.01987v1
- Date: Mon, 01 Dec 2025 18:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.026615
- Title: Forecasting in Offline Reinforcement Learning for Non-stationary Environments
- Title(参考訳): 非定常環境におけるオフライン強化学習の予測
- Authors: Suzan Ece Ada, Georg Martius, Emre Ugur, Erhan Oztop,
- Abstract要約: 条件拡散に基づく候補状態生成を統一するフレームワークであるNon-stationary Offline RL (FORL) にフォアキャスティングを導入する。
FORLは予期せぬ非マルコフオフセットをターゲットとし、各エピソードの開始から堅牢なエージェントパフォーマンスを必要とする。
実世界の時系列データで拡張されたオフラインRLベンチマークの実証的な評価は、FOLが競合するベースラインに比べて一貫してパフォーマンスを改善することを示した。
- 参考スコア(独自算出の注目度): 23.889016600249295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) provides a promising avenue for training policies from pre-collected datasets when gathering additional interaction data is infeasible. However, existing offline RL methods often assume stationarity or only consider synthetic perturbations at test time, assumptions that often fail in real-world scenarios characterized by abrupt, time-varying offsets. These offsets can lead to partial observability, causing agents to misperceive their true state and degrade performance. To overcome this challenge, we introduce Forecasting in Non-stationary Offline RL (FORL), a framework that unifies (i) conditional diffusion-based candidate state generation, trained without presupposing any specific pattern of future non-stationarity, and (ii) zero-shot time-series foundation models. FORL targets environments prone to unexpected, potentially non-Markovian offsets, requiring robust agent performance from the onset of each episode. Empirical evaluations on offline RL benchmarks, augmented with real-world time-series data to simulate realistic non-stationarity, demonstrate that FORL consistently improves performance compared to competitive baselines. By integrating zero-shot forecasting with the agent's experience, we aim to bridge the gap between offline RL and the complexities of real-world, non-stationary environments.
- Abstract(参考訳): オフライン強化学習(RL)は、追加のインタラクションデータ収集が不可能な場合に、事前にコンパイルされたデータセットからポリシーをトレーニングするための有望な道を提供する。
しかし、既存のオフラインRL法は、しばしば定常性を仮定するか、テスト時にのみ合成摂動を仮定する。
これらのオフセットは部分的な観測可能性をもたらし、エージェントはその真の状態を誤解し、性能を低下させる。
この課題を克服するために、我々はFORL(Non-stationary Offline RL)でフォアキャスティングを導入する。
一 将来の非定常性の特定のパターンを前提とせずに訓練された条件拡散に基づく候補状態の生成
(ii)ゼロショット時系列基礎モデル。
FORLは予期せぬ非マルコフオフセットをターゲットとし、各エピソードの開始から堅牢なエージェントパフォーマンスを必要とする。
実世界の時系列データを拡張して現実的な非定常性をシミュレートするオフラインRLベンチマークの実証的評価は、FOLが競合するベースラインよりも一貫してパフォーマンスを改善することを実証している。
ゼロショット予測とエージェントの経験を統合することで、オフラインRLと実世界の非定常環境の複雑さのギャップを埋めることを目指している。
関連論文リスト
- Hybrid Cross-domain Robust Reinforcement Learning [26.850955692805186]
ロバスト強化学習(RL)は、環境に不確実性があるにもかかわらず効果的な政策を学ぶことを目的としている。
本稿では,Hybrid Cross-Domain Robust RLフレームワークであるHYDROを紹介する。
不確実性セットにおけるシミュレータと最悪のモデルのパフォーマンスギャップを計測し、最小化することにより、HYDROは、新しい不確実性フィルタリングと優先順位付けサンプリングを採用し、最も重要で信頼性の高いシミュレータサンプルを選択する。
論文 参考訳(メタデータ) (2025-05-29T02:25:13Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Streetwise Agents: Empowering Offline RL Policies to Outsmart Exogenous Stochastic Disturbances in RTC [21.20874303316171]
本稿では,配布外部分空間のリアルタイムな特徴付けを前提としたポリシーのデプロイ後シェーピングを提案する。
BWEおよび他の標準オフラインRLベンチマーク環境に対する実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2024-11-11T09:22:09Z) - Offline Reinforcement Learning with Imbalanced Datasets [23.454333727200623]
実世界のオフライン強化学習(RL)データセットは、探索や安全性の考慮が難しいため、状態空間上で不均衡になることが多い。
保守的なQ-ラーニング(CQL)のような分散制約に基づくオフラインのRL手法は、不均衡なデータセットの下でポリシーを抽出するのに効果がないことを示す。
自然知性に触発されて、CQLの強化と検索プロセスを利用して、過去の経験を思い出す新しいオフラインRL法を提案する。
論文 参考訳(メタデータ) (2023-07-06T03:22:19Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [54.34189781923818]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。