論文の概要: Model-Based Reinforcement Learning under Random Observation Delays
- arxiv url: http://arxiv.org/abs/2509.20869v1
- Date: Thu, 25 Sep 2025 08:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.777472
- Title: Model-Based Reinforcement Learning under Random Observation Delays
- Title(参考訳): ランダム観測遅延下におけるモデルベース強化学習
- Authors: Armin Karamzade, Kyungmin Kim, JB Lanier, Davide Corsi, Roy Fox,
- Abstract要約: 我々は,POMDPにおけるランダムなセンサ遅延について検討した。
本稿では,入ってくる観測ストリームに基づいて,信頼状態を逐次更新するモデルに基づくフィルタリングプロセスを提案する。
次に、モデルベースのRLにこのアイデアを組み込んだ、シンプルな遅延認識フレームワークを紹介します。
- 参考スコア(独自算出の注目度): 9.860349466867193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Delays frequently occur in real-world environments, yet standard reinforcement learning (RL) algorithms often assume instantaneous perception of the environment. We study random sensor delays in POMDPs, where observations may arrive out-of-sequence, a setting that has not been previously addressed in RL. We analyze the structure of such delays and demonstrate that naive approaches, such as stacking past observations, are insufficient for reliable performance. To address this, we propose a model-based filtering process that sequentially updates the belief state based on an incoming stream of observations. We then introduce a simple delay-aware framework that incorporates this idea into model-based RL, enabling agents to effectively handle random delays. Applying this framework to Dreamer, we compare our approach to delay-aware baselines developed for MDPs. Our method consistently outperforms these baselines and demonstrates robustness to delay distribution shifts during deployment. Additionally, we present experiments on simulated robotic tasks, comparing our method to common practical heuristics and emphasizing the importance of explicitly modeling observation delays.
- Abstract(参考訳): 遅延は実環境において頻繁に発生するが、標準的な強化学習(RL)アルゴリズムは環境を瞬時に知覚する。
本研究は,従来RLで扱っていなかった観測結果が外部に届きうるPOMDPのランダムなセンサ遅延について検討する。
このような遅延構造を解析し、過去の観測を積み重ねるなど、単純なアプローチは信頼性の高い性能には不十分であることを示す。
そこで本研究では,入ってくる観測ストリームに基づいて,信頼状態を逐次更新するモデルに基づくフィルタリングプロセスを提案する。
次に、モデルベースRLにこのアイデアを組み込んだシンプルな遅延認識フレームワークを導入し、エージェントがランダム遅延を効果的に処理できるようにする。
このフレームワークをDreamerに適用し、MDP向けに開発された遅延認識ベースラインに対する我々のアプローチを比較した。
提案手法は,これらのベースラインを一貫して上回り,展開中の分散シフトを遅らせる堅牢性を示す。
さらに,本手法を一般的な実用的ヒューリスティックスと比較し,観察遅延を明示的にモデル化することの重要性を強調し,シミュレーションロボットタスクの実験を行った。
関連論文リスト
- Reinforcement Learning via Conservative Agent for Environments with Random Delays [2.115993069505241]
本稿では,ランダム遅延下での意思決定のための単純かつ堅牢なエージェントを保守的エージェントと呼び,ランダム遅延環境を定遅延等価に再構成する。
これにより、アルゴリズム構造を変更したり性能を犠牲にすることなく、最先端の定数遅延法を直接ランダム遅延環境に拡張することができる。
論文 参考訳(メタデータ) (2025-07-25T06:41:06Z) - Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting [52.6508222408558]
Eucidated Rolling Diffusion Models (ERDM)を紹介する。
ERDMはEucidated Diffusion Models (EDM) の原理的, 性能的設計とローリング予測構造を統一する最初のフレームワークである
2D Navier-StokesシミュレーションとERA5グローバル気象予報の1.5円解像度では、ERDMはキー拡散ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-24T21:44:31Z) - Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models [71.63194926457119]
動的拡散(DyDiff, Dynamical Diffusion)は, 時間的に意識された前と逆のプロセスを含む理論的に健全なフレームワークである。
科学的時間的予測、ビデオ予測、時系列予測に関する実験は、動的拡散が時間的予測タスクのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-03-02T16:10:32Z) - Score as Action: Fine-Tuning Diffusion Generative Models by Continuous-time Reinforcement Learning [15.789898162610529]
人間のフィードバックからの強化学習(RLHF)は、信頼できる生成AIモデルを構築する上で重要なステップとなっている。
本研究は、連続時間RLを用いた微動拡散モデルに対する規律付きアプローチを開発することを目的とする。
論文 参考訳(メタデータ) (2025-02-03T20:50:05Z) - Reinforcement Learning from Delayed Observations via World Models [10.298219828693489]
強化学習環境では、エージェントはそれらを取るとすぐに行動の効果についてのフィードバックを受ける。
実際には、この仮定は物理的制約のために当てはまらない可能性があり、学習アルゴリズムの性能に大きな影響を及ぼす可能性がある。
本稿では、過去の観測と学習のダイナミクスを統合することに成功している世界モデルを活用して、観測遅延を処理することを提案する。
論文 参考訳(メタデータ) (2024-03-18T23:18:27Z) - Streaming Motion Forecasting for Autonomous Driving [71.7468645504988]
ストリーミングデータにおける将来の軌跡を問うベンチマークを導入し,これを「ストリーミング予測」と呼ぶ。
我々のベンチマークは本質的に、スナップショットベースのベンチマークでは見過ごされていない安全上の問題であるエージェントの消失と再出現を捉えている。
我々は,任意のスナップショットベースの予測器をストリーミング予測器に適応させることのできる,"Predictive Streamer"と呼ばれるプラグアンドプレイメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:13:16Z) - Towards Motion Forecasting with Real-World Perception Inputs: Are
End-to-End Approaches Competitive? [93.10694819127608]
実世界の知覚入力を用いた予測手法の統一評価パイプラインを提案する。
我々の詳細な調査では、キュレートされたデータから知覚ベースのデータへ移行する際の大きなパフォーマンスギャップが明らかになりました。
論文 参考訳(メタデータ) (2023-06-15T17:03:14Z) - Revisiting State Augmentation methods for Reinforcement Learning with
Stochastic Delays [10.484851004093919]
本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。
遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。
この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
論文 参考訳(メタデータ) (2021-08-17T10:45:55Z) - Stochastically forced ensemble dynamic mode decomposition for
forecasting and analysis of near-periodic systems [65.44033635330604]
本稿では,観測力学を強制線形系としてモデル化した新しい負荷予測手法を提案する。
固有線型力学の利用は、解釈可能性やパーシモニーの観点から、多くの望ましい性質を提供することを示す。
電力グリッドからの負荷データを用いたテストケースの結果が提示される。
論文 参考訳(メタデータ) (2020-10-08T20:25:52Z) - Reinforcement Learning with Random Delays [14.707955337702943]
後方視における軌道断片の部分的再サンプリングにより、オフ・ポリティクスの多段階値推定が可能となることを示す。
この原理を適用し,遅延のある環境において,ソフト・アクタ・クライブに基づくアルゴリズムである遅延補正アクタ・クライブ(DCAC)を導出する。
論文 参考訳(メタデータ) (2020-10-06T18:39:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。