論文の概要: Quantifying First-Order Markov Violations in Noisy Reinforcement Learning: A Causal Discovery Approach
- arxiv url: http://arxiv.org/abs/2503.00206v1
- Date: Fri, 28 Feb 2025 21:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:26:44.145599
- Title: Quantifying First-Order Markov Violations in Noisy Reinforcement Learning: A Causal Discovery Approach
- Title(参考訳): 雑音強化学習における一階マルコフ違反の定量化:因果発見アプローチ
- Authors: Naveen Mysore,
- Abstract要約: 強化学習 (Reinforcement Learning, RL) 法は、それぞれの新しい観測が環境の状態を完全に反映していると仮定する。
実際には、部分的な可観測性やセンサ/アクチュエータノイズは、この仮定を無効にすることが多い。
本稿では,新しいマルコフ・ヴァイオレーションスコア(MVS)を用いて,このような違反を検出するための体系的手法を提案する。
MVSは、ノイズや不完全な状態情報がマルコフプロパティを乱すときに現れる多段階依存関係を測定する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Reinforcement learning (RL) methods frequently assume that each new observation completely reflects the environment's state, thereby guaranteeing Markovian (one-step) transitions. In practice, partial observability or sensor/actuator noise often invalidates this assumption. This paper proposes a systematic methodology for detecting such violations, combining a partial correlation-based causal discovery process (PCMCI) with a novel Markov Violation score (MVS). The MVS measures multi-step dependencies that emerge when noise or incomplete state information disrupts the Markov property. Classic control tasks (CartPole, Pendulum, Acrobot) serve as examples to illustrate how targeted noise and dimension omissions affect both RL performance and measured Markov consistency. Surprisingly, even substantial observation noise sometimes fails to induce strong multi-lag dependencies in certain domains (e.g., Acrobot). In contrast, dimension-dropping investigations show that excluding some state variables (e.g., angular velocities in CartPole and Pendulum) significantly reduces returns and increases MVS, while removing other dimensions has minimal impact. These findings emphasize the importance of locating and safeguarding the most causally essential dimensions in order to preserve effective single-step learning. By integrating partial correlation tests with RL performance outcomes, the proposed approach precisely identifies when and where the Markov assumption is violated. This framework offers a principled mechanism for developing robust policies, informing representation learning, and addressing partial observability in real-world RL scenarios. All code and experimental logs are accessible for reproducibility (https://github.com/ucsb/markovianess).
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)法は、新しい観測が環境の状態を完全に反映しているとしばしば仮定する。
実際には、部分的な可観測性やセンサ/アクチュエータノイズは、この仮定を無効にすることが多い。
本稿では, 部分相関に基づく因果発見プロセス (PCMCI) と新しいマルコフ・ヴァイオレーションスコア (MVS) を組み合わせることで, 違反を検出するための体系的手法を提案する。
MVSは、ノイズや不完全な状態情報がマルコフプロパティを乱すときに現れる多段階依存関係を測定する。
古典的な制御タスク(CartPole、Pendulum、Acrobot)は、ターゲットのノイズと寸法のずれがRL性能とマルコフの整合性にどのように影響するかを示す例である。
驚くべきことに、相当な観測ノイズでさえ、特定のドメイン(例えばAcrobot)で強いマルチラグ依存性を誘導できないことがある。
対照的に、ディメンションドロップによる調査では、いくつかの状態変数(例えば、CartPole と Pendulum の角速度)を除いた場合、リターンが大幅に減少し、MVS が増加し、他の次元を削除しても影響は最小である。
これらの知見は、効果的なシングルステップ学習を維持するために、最も因果的に不可欠な次元を探索し、保護することの重要性を強調した。
部分相関テストをRL性能結果と統合することにより,マルコフの仮定がいつ,どこで破られたのかを正確に同定する。
このフレームワークは、ロバストなポリシーを開発し、表現学習を伝え、現実世界のRLシナリオで部分的な可観測性に対処するための原則化されたメカニズムを提供する。
すべてのコードと実験ログは再現可能である(https://github.com/ucsb/markovianess)。
関連論文リスト
- Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。
我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。
本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:49:13Z) - Robust Learning under Hybrid Noise [24.36707245704713]
本稿では,データリカバリの観点からハイブリッドノイズに対処するため,新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:13:25Z) - Skeleton-Based Human Action Recognition with Noisy Labels [43.58994208412764]
ラベルノイズはモデルのトレーニングに悪影響を及ぼし、認識品質が低下する。
NoiseEraSARは、グローバルなサンプル選択、コティーチング、クロスモーダル・ミックス・オブ・エキスパート戦略を統合している。
提案手法は,確立されたベンチマークの性能向上を実証し,新しい最先端標準を設定した。
論文 参考訳(メタデータ) (2024-03-15T02:42:28Z) - Undersampling and Cumulative Class Re-decision Methods to Improve
Detection of Agitation in People with Dementia [16.949993123698345]
消化は認知症(PwD)で最も多い症状の1つである。
前回の研究では、参加者17名から600日間のマルチモーダルウェアラブルセンサデータを収集し、1分間の窓での動揺を検出する機械学習モデルを開発した。
本稿では,まず,不均衡を解消するために異なるアンダーサンプリング手法を実装し,通常の動作データの20%だけが競合的動揺検出モデルの訓練に適しているという結論に至った。
論文 参考訳(メタデータ) (2023-02-07T03:14:00Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Finite-Time Analysis of Natural Actor-Critic for POMDPs [29.978816372127085]
部分観測されたマルコフ決定過程(POMDP)に対する強化学習問題について考察する。
本稿では、ポリシーパラメータ化に有限内部メモリを用いる自然なアクター批判法について考察する。
より大きなブロックサイズを用いて,スライディングブロックコントローラの場合,この誤差を小さくすることができることを示す。
論文 参考訳(メタデータ) (2022-02-20T07:42:00Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Exploring the Training Robustness of Distributional Reinforcement
Learning against Noisy State Observations [7.776010676090131]
エージェントが観察する状態の観察は、測定誤差や敵のノイズを含んでおり、エージェントが最適な行動を取るように誤解したり、訓練中に崩壊することもある。
本稿では,本研究の成果である分散強化学習(RL)のトレーニングロバスト性について検討する。
論文 参考訳(メタデータ) (2021-09-17T22:37:39Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Semi-Supervised Learning with Variational Bayesian Inference and Maximum
Uncertainty Regularization [62.21716612888669]
半教師付き学習(SSL)を改善するための2つの一般的な方法を提案する。
第一に、重量摂動(WP)を既存のCR(Consistency regularization)ベースの手法に統合する。
第2の手法は「最大不確実性正規化(MUR)」と呼ばれる新しい整合性損失を提案する。
論文 参考訳(メタデータ) (2020-12-03T09:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。