論文の概要: When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift
- arxiv url: http://arxiv.org/abs/2603.04648v1
- Date: Wed, 04 Mar 2026 22:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.993438
- Title: When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift
- Title(参考訳): センサの故障時:センサドリフト下でのロバストPPOの時系列モデル
- Authors: Kevin Vogt-Lowell, Theodoros Tsiligkaridis, Rodney Lafuente-Mercado, Surabhi Ghatti, Shanghua Gao, Marinka Zitnik, Daniela Rus,
- Abstract要約: 時間的持続的なセンサ故障下でのPPOのロバスト性について検討する。
トランスフォーマーを用いたシーケンスポリシーは, センサ数が少ない場合でも高いリターンを保ちながら, 堅牢性, RNN, SSMよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 64.37959940809633
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-world reinforcement learning systems must operate under distributional drift in their observation streams, yet most policy architectures implicitly assume fully observed and noise-free states. We study robustness of Proximal Policy Optimization (PPO) under temporally persistent sensor failures that induce partial observability and representation shift. To respond to this drift, we augment PPO with temporal sequence models, including Transformers and State Space Models (SSMs), to enable policies to infer missing information from history and maintain performance. Under a stochastic sensor failure process, we prove a high-probability bound on infinite-horizon reward degradation that quantifies how robustness depends on policy smoothness and failure persistence. Empirically, on MuJoCo continuous-control benchmarks with severe sensor dropout, we show Transformer-based sequence policies substantially outperform MLP, RNN, and SSM baselines in robustness, maintaining high returns even when large fractions of sensors are unavailable. These results demonstrate that temporal sequence reasoning provides a principled and practical mechanism for reliable operation under observation drift caused by sensor unreliability.
- Abstract(参考訳): 実世界の強化学習システムは、観測ストリームの分散ドリフトの下で動作する必要があるが、ほとんどの政策アーキテクチャは、完全に観察され、ノイズのない状態を暗黙的に仮定する。
本研究では, 時間的に持続するセンサ障害下でのPPOのロバスト性について検討し, 部分観測可能性と表現シフトを誘導する。
このドリフトに対応するために、トランスフォーマーやステートスペースモデル(SSM)を含む時間的シーケンスモデルを用いてPPOを拡張し、履歴から欠落した情報を推測し、性能を維持するポリシーを可能にする。
確率的センサ故障過程において、安定度が政策の滑らかさや失敗の持続性にどのように依存するかを定量化する無限水平報酬分解に束縛された高い確率を証明した。
MLP, RNN, SSM は, センサの少ない MuJoCo の連続制御ベンチマークにおいて, 精度が大幅に向上し, センサ数が少ない場合でも高いリターンを維持した。
これらの結果は, センサの不確実性に起因する観測ドリフト下での信頼性操作に対して, 時間的シーケンス推論が原理的かつ実用的なメカニズムを提供することを示した。
関連論文リスト
- On the Plasticity and Stability for Post-Training Large Language Models [54.757672540381236]
塑性と安定性勾配の矛盾として根本原因を同定する。
本稿では,確率的衝突解決法(PCR)を提案する。
PCRはトレーニングの軌道を著しく滑らかにし、様々な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T07:31:26Z) - Analyzing and Improving Diffusion Models for Time-Series Data Imputation: A Proximal Recursion Perspective [45.713195454899875]
拡散モデル(DM)は時系列データインプットを約束している。
DMの性能は複雑なシナリオでは相容れない。
我々はSPIRIT(Semi-proximal Transport Regularized Time-Series Imputation)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T12:11:57Z) - On the Provable Suboptimality of Momentum SGD in Nonstationary Stochastic Optimization [0.0]
各種段差系における均一な凸性および滑らか性の下でのグラディエントDescentの追跡性能を解析した。
本研究では,ドリフトによる追従誤差を大幅に増幅し,追従能力に明らかなペナルティを与えることを示す。
これらの結果は、動的環境における運動量の経験的不安定性に対する決定的な理論的根拠を与える。
論文 参考訳(メタデータ) (2026-01-18T03:27:21Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - The power of dynamic causality in observer-based design for soft sensor applications [0.7965327033045845]
本稿では,動的因果解析により観測者に基づくソフトセンサを最適化するための新しい枠組みを提案する。
センサ選択への伝統的なアプローチは、複雑なシステムの時間的進化を捉えるのに失敗する線形化された可観測性指数や統計的相関に依存することが多い。
論文 参考訳(メタデータ) (2025-09-14T16:27:58Z) - Anomaly Detection in Complex Dynamical Systems: A Systematic Framework Using Embedding Theory and Physics-Inspired Consistency [0.0]
複雑な力学系における異常検出は、産業やサイバー物理のインフラにおける信頼性、安全性、効率を確保するために不可欠である。
本稿では,古典的な埋め込み理論と物理に着想を得た一貫性原理を基礎としたシステム理論による異常検出手法を提案する。
本研究は, 異常が安定系の力学を阻害する仮説を支持し, 異常検出のためのロバストな信号を提供する。
論文 参考訳(メタデータ) (2025-02-26T17:06:13Z) - A Poisson-Gamma Dynamic Factor Model with Time-Varying Transition Dynamics [51.147876395589925]
非定常PGDSは、基礎となる遷移行列が時間とともに進化できるように提案されている。
後続シミュレーションを行うために, 完全共役かつ効率的なギブスサンプリング装置を開発した。
実験により,提案した非定常PGDSは,関連するモデルと比較して予測性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-26T04:39:01Z) - Probabilities Are Not Enough: Formal Controller Synthesis for Stochastic
Dynamical Models with Epistemic Uncertainty [68.00748155945047]
複雑な力学系のモデルにおける不確実性を捉えることは、安全なコントローラの設計に不可欠である。
いくつかのアプローチでは、安全と到達可能性に関する時間的仕様を満たすポリシーを形式的な抽象化を用いて合成する。
我々の貢献は、ノイズ、不確実なパラメータ、外乱を含む連続状態モデルに対する新しい抽象的制御法である。
論文 参考訳(メタデータ) (2022-10-12T07:57:03Z) - On the Sample Complexity and Metastability of Heavy-tailed Policy Search
in Continuous Control [47.71156648737803]
強化学習(Reinforcement learning)は、システムダイナミクスモデルなしで、時間をかけてインセンティブを順次明らかにする、インタラクティブな意思決定のためのフレームワークである。
定義された連鎖を特徴付け、テールインデックスのレヴィプロセスに関連するポリシーがより広いピークに収まることを識別する。
論文 参考訳(メタデータ) (2021-06-15T20:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。