論文の概要: Diagnosing Non-Markovian Observations in Reinforcement Learning via Prediction-Based Violation Scoring
- arxiv url: http://arxiv.org/abs/2603.27389v1
- Date: Sat, 28 Mar 2026 19:42:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.933978
- Title: Diagnosing Non-Markovian Observations in Reinforcement Learning via Prediction-Based Violation Scoring
- Title(参考訳): 予測に基づく振動スコーリングによる強化学習における非マルコフ観測の診断
- Authors: Naveen Mysore,
- Abstract要約: 強化学習アルゴリズムは、観測がマルコフの性質を満たすと仮定する。
実世界のセンサーは、相関ノイズ、遅延、または部分的な可観測性を通じて、この仮定にしばしば違反する。
本稿では,観測軌道における非マルコフ構造を定量化する予測に基づくスコアリング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning algorithms assume that observations satisfy the Markov property, yet real-world sensors frequently violate this assumption through correlated noise, latency, or partial observability. Standard performance metrics conflate Markov breakdowns with other sources of suboptimality, leaving practitioners without diagnostic tools for such violations. This paper introduces a prediction-based scoring method that quantifies non-Markovian structure in observation trajectories. A random forest first removes nonlinear Markov-compliant dynamics; ridge regression then tests whether historical observations reduce prediction error on the residuals beyond what the current observation provides. The resulting score is bounded in [0, 1] and requires no causal graph construction. Evaluation spans six environments (CartPole, Pendulum, Acrobot, HalfCheetah, Hopper, Walker2d), three algorithms (PPO, A2C, SAC), controlled AR(1) noise at six intensity levels, and 10 seeds per condition. In post-hoc detection, 7 of 16 environment-algorithm pairs, primarily high-dimensional locomotion tasks, show significant positive monotonicity between noise intensity and the violation score (Spearman rho up to 0.78, confirmed under repeated-measures analysis); under training-time noise, 13 of 16 pairs exhibit statistically significant reward degradation. An inversion phenomenon is documented in low-dimensional environments where the random forest absorbs the noise signal, causing the score to decrease as true violations grow, a failure mode analyzed in detail. A practical utility experiment demonstrates that the proposed score correctly identifies partial observability and guides architecture selection, fully recovering performance lost to non-Markovian observations. Source code to reproduce all results is provided at https://github.com/NAVEENMN/Markovianes.
- Abstract(参考訳): 強化学習アルゴリズムは、観測がマルコフの性質を満たすと仮定するが、実世界のセンサーは相関ノイズ、遅延、または部分観測可能性を通じてこの仮定にしばしば違反する。
標準的なパフォーマンス指標は、Markovのブレークダウンを他のサブ最適化のソースと説明し、そのような違反の診断ツールを持たない実践者を残します。
本稿では,観測軌道における非マルコフ構造を定量化する予測に基づくスコアリング手法を提案する。
ランダム・フォレストはまず非線形マルコフに係わる力学を除去し、リッジレグレッションはその後、過去の観測結果が現在の観測結果以上の残差の予測誤差を減少させるかどうかを検査する。
結果のスコアは [0, 1] で有界であり、因果グラフの構成は不要である。
評価は、6つの環境(CartPole, Pendulum, Acrobot, HalfCheetah, Hopper, Walker2d)、3つのアルゴリズム(PPO, A2C, SAC)、6つの強度レベルでAR(1)ノイズを制御し、1つの条件毎に10個のシードを出力する。
ポストホック検出では,16対中7対,主に高次元移動タスクは騒音強度と違反スコアとの間に有意な正の単調性を示す(Spearman rho, 最大0.78)。
ランダム森林がノイズ信号を吸収し、真の違反が大きくなるにつれてスコアが低下する低次元環境において、障害モードが詳細に解析される。
実用的な実験により、提案したスコアは部分観測可能性を正しく識別し、アーキテクチャ選択を導出し、非マルコフ観測で失った性能を完全に回復することを示した。
すべての結果を再現するソースコードはhttps://github.com/NAVEENMN/Markovianesにある。
関連論文リスト
- Variational Rectification Inference for Learning with Noisy Labels [74.85528327499662]
損失関数の適応的補正を定式化するために, 変分補正推論(VRI)を提案する。
VRIは、補正ベクトルを潜在変数として扱うことによって階層ベイズとして構成される。
VRIで変分項を導入することにより、条件付き後部を正確に推定し、ディラックデルタ関数への崩壊を避ける。
論文 参考訳(メタデータ) (2026-03-18T01:25:08Z) - Noise-Robust Tiny Object Localization with Flows [63.60972031108944]
フレキシブルなエラーモデリングと不確実性誘導最適化に正規化フローを活用するノイズローバストローカライゼーションフレームワークを提案する。
本手法は,フローベース誤差モデルを用いて,複雑な非ガウス予測分布を抽出し,ノイズの多い監視下で頑健な学習を可能にする。
不確実性を考慮した勾配変調機構は、トレーニングを安定化しながら過度な適合を緩和し、高不確実でノイズの強いサンプルからの学習をさらに抑制する。
論文 参考訳(メタデータ) (2026-01-02T09:16:55Z) - COGNOS: Universal Enhancement for Time Series Anomaly Detection via Constrained Gaussian-Noise Optimization and Smoothing [6.738487965771888]
Constrained Gaussian-Noise Optimization and Smoothing (COGNOS)は、モデルに依存しない拡張フレームワークである。
我々はCOGNOSが非常に有効であることを示し、12種類のバックボーンモデルに適用した場合、平均Fスコアアップリフトは57.9%となることを示した。
出力統計を直接正規化することは、異常検出システムを大幅に改善するための強力で一般化可能な戦略である。
論文 参考訳(メタデータ) (2025-11-10T09:43:48Z) - Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文 参考訳(メタデータ) (2025-07-06T17:01:02Z) - Quantifying First-Order Markov Violations in Noisy Reinforcement Learning: A Causal Discovery Approach [0.0]
強化学習 (Reinforcement Learning, RL) 法は、それぞれの新しい観測が環境の状態を完全に反映していると仮定する。
実際には、部分的な可観測性やセンサ/アクチュエータノイズは、この仮定を無効にすることが多い。
本稿では,新しいマルコフ・ヴァイオレーションスコア(MVS)を用いて,このような違反を検出するための体系的手法を提案する。
MVSは、ノイズや不完全な状態情報がマルコフプロパティを乱すときに現れる多段階依存関係を測定する。
論文 参考訳(メタデータ) (2025-02-28T21:42:10Z) - SoftPatch: Unsupervised Anomaly Detection with Noisy Data [67.38948127630644]
本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。
本稿では,メモリベースの非教師付きAD手法であるSoftPatchを提案する。
既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
論文 参考訳(メタデータ) (2024-03-21T08:49:34Z) - Label Noise: Correcting the Forward-Correction [0.0]
ラベルノイズのあるデータセット上でニューラルネットワーク分類器を訓練することは、ノイズのあるラベルに過度に適合するリスクをもたらす。
ラベルノイズによる過度適合に対処する手法を提案する。
本研究は, オーバーフィッティングを緩和するために, トレーニング損失に低い限界を課すことを提案する。
論文 参考訳(メタデータ) (2023-07-24T19:41:19Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。