論文の概要: Wavelet Predictive Representations for Non-Stationary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.04507v1
- Date: Mon, 06 Oct 2025 05:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.696692
- Title: Wavelet Predictive Representations for Non-Stationary Reinforcement Learning
- Title(参考訳): 非定常強化学習のためのウェーブレット予測表現
- Authors: Min Wang, Xin Li, Ye He, Yao-Hui Li, Hasnaa Bennis, Riashat Islam, Mingzhong Wang,
- Abstract要約: WISDOMは、タスク表現シーケンスをウェーブレットドメインに変換することで、MDPシーケンスの進化におけるマルチスケールの特徴をキャプチャする。
WISDOMはサンプル効率と性能の両方で既存のベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 16.99397898280072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The real world is inherently non-stationary, with ever-changing factors, such as weather conditions and traffic flows, making it challenging for agents to adapt to varying environmental dynamics. Non-Stationary Reinforcement Learning (NSRL) addresses this challenge by training agents to adapt rapidly to sequences of distinct Markov Decision Processes (MDPs). However, existing NSRL approaches often focus on tasks with regularly evolving patterns, leading to limited adaptability in highly dynamic settings. Inspired by the success of Wavelet analysis in time series modeling, specifically its ability to capture signal trends at multiple scales, we propose WISDOM to leverage wavelet-domain predictive task representations to enhance NSRL. WISDOM captures these multi-scale features in evolving MDP sequences by transforming task representation sequences into the wavelet domain, where wavelet coefficients represent both global trends and fine-grained variations of non-stationary changes. In addition to the auto-regressive modeling commonly employed in time series forecasting, we devise a wavelet temporal difference (TD) update operator to enhance tracking and prediction of MDP evolution. We theoretically prove the convergence of this operator and demonstrate policy improvement with wavelet task representations. Experiments on diverse benchmarks show that WISDOM significantly outperforms existing baselines in both sample efficiency and asymptotic performance, demonstrating its remarkable adaptability in complex environments characterized by non-stationary and stochastically evolving tasks.
- Abstract(参考訳): 現実の世界は本質的に非定常的であり、気象条件や交通の流れなど、常に変化する要因があるため、エージェントが様々な環境力学に適応することは困難である。
非定常強化学習(NSRL)は、異なるマルコフ決定プロセス(MDP)のシーケンスに迅速に適応する訓練エージェントによるこの問題に対処する。
しかし、既存のNSRLアプローチは、しばしば定期的に進化するパターンを持つタスクに焦点を当て、非常にダイナミックな設定で適応性が制限される。
時系列モデリングにおけるウェーブレット解析の成功,特に信号トレンドを複数のスケールで捉える能力に触発されて,ウェーブレット領域の予測タスク表現を活用してNSRLを強化するWISDOMを提案する。
WISDOMは、タスク表現シーケンスをウェーブレット領域に変換することで、MDPシーケンスの進化におけるこれらのマルチスケールの特徴を捉え、ウェーブレット係数は、大域的トレンドと非定常変化のきめ細かい変化の両方を表す。
時系列予測によく用いられる自己回帰モデルに加えて, ウェーブレット時間差(TD)更新演算子を考案し, MDP進化の追跡と予測を強化する。
理論的には、この演算子の収束を証明し、ウェーブレットタスク表現による政策改善を示す。
多様なベンチマーク実験により、WISDOMはサンプル効率と漸近性の両方において既存のベースラインを著しく上回り、非定常的および確率論的に進化するタスクを特徴とする複雑な環境における顕著な適応性を示している。
関連論文リスト
- On-the-Fly Data Augmentation via Gradient-Guided and Sample-Aware Influence Estimation [21.267525672022046]
モデル最適化に対する各サンプルの進化的影響に基づいて,各サンプルの強化強度をオンザフライで調整する,サンプル認識動的拡張(SADA)について紹介する。
本手法は軽量であり,補助モデルやポリシーチューニングを必要としない。既存のトレーニングパイプラインにプラグイン・アンド・プレイモジュールとしてシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-10-01T02:26:52Z) - Zero-Shot Adaptation of Behavioral Foundation Models to Unseen Dynamics [42.446740732573296]
行動基礎モデル(BFM)は、任意のタスクに対してゼロショットでポリシーを作成することに成功した。
ここでは,BFMファミリーの手法の1つであるフォワード・バックワード(FB)表現が,異なるダイナミクスを区別できないことを示す。
本稿では,ゼロショット適応を大幅に促進するトランスフォーマーに基づく信念推定器を備えたFBモデルを提案する。
論文 参考訳(メタデータ) (2025-05-19T14:12:19Z) - Learning Robust Spectral Dynamics for Temporal Domain Generalization [35.98513351187109]
時間的ドメイン一般化は、進化するドメインをまたいだモデル一般化を可能にすることを目指している。
本稿では,パラメータ軌跡の周波数領域解析により,これらの課題に対処するFreKooを紹介する。
FreKooは、複雑なドリフトと不確実性を備えた現実世界のストリーミングシナリオに優れています。
論文 参考訳(メタデータ) (2025-05-19T00:38:18Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - A Poisson-Gamma Dynamic Factor Model with Time-Varying Transition Dynamics [51.147876395589925]
非定常PGDSは、基礎となる遷移行列が時間とともに進化できるように提案されている。
後続シミュレーションを行うために, 完全共役かつ効率的なギブスサンプリング装置を開発した。
実験により,提案した非定常PGDSは,関連するモデルと比較して予測性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-26T04:39:01Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Out-of-Distribution Generalized Dynamic Graph Neural Network with
Disentangled Intervention and Invariance Promotion [61.751257172868186]
動的グラフニューラルネットワーク(DyGNN)は、グラフと時間力学を利用して強力な予測能力を実証している。
既存のDyGNNは、動的グラフに自然に存在する分散シフトを処理できない。
論文 参考訳(メタデータ) (2023-11-24T02:42:42Z) - Stochastically forced ensemble dynamic mode decomposition for
forecasting and analysis of near-periodic systems [65.44033635330604]
本稿では,観測力学を強制線形系としてモデル化した新しい負荷予測手法を提案する。
固有線型力学の利用は、解釈可能性やパーシモニーの観点から、多くの望ましい性質を提供することを示す。
電力グリッドからの負荷データを用いたテストケースの結果が提示される。
論文 参考訳(メタデータ) (2020-10-08T20:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。