論文の概要: Integrating Causal DAGs in Deep RL: Activating Minimal Markovian States with Multi-Order Exposure
- arxiv url: http://arxiv.org/abs/2605.07057v1
- Date: Fri, 08 May 2026 00:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.68715
- Title: Integrating Causal DAGs in Deep RL: Activating Minimal Markovian States with Multi-Order Exposure
- Title(参考訳): 深部RLにおける因果DAGの統合:多次露光による最小マルコフ状態の活性化
- Authors: Jiamin Xu, Jacqueline Maasch, Kyra Gan,
- Abstract要約: オンライン強化学習(RL)は、パフォーマンスを保証するためにマルコフ特性に依存している。
ディープRLでは、最小表現だけでは経験的に性能改善に失敗する。
マルチオーダーの歴史的状態構造を同じ$Q$関数にフィードするtextbfMOSE(Multi-Order State Exposure)を提案する。
以上の結果から, 因果的深度RLの根本原理として, 最小充足力では不十分であり, 因果的状態情報の利点を解き明かすためには, 共振冗長性が必要であるという結論が得られた。
- 参考スコア(独自算出の注目度): 8.552121296531713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online reinforcement learning (RL) relies on the Markov property for guaranteed performance, but real-world applications often lack well-defined states given raw observed variables. While causal RL has attracted growing interest, existing work typically assumes Markovian states are provided and focuses on using causality to accelerate learning, leaving a fundamental gap: \emph{given a longitudinal causal graph over observed variables, how does one construct MDP states that provably satisfy the Markov property?} We address this by providing a procedure that constructs a provably minimal state representation. In deep RL, we observe that the minimal representation alone empirically fails to improve performance, indicating that neural networks cannot directly exploit Markovian minimality. To address this, we propose \textbf{MOSE} (Multi-Order State Exposure), which feeds multi-order historical state constructions into the same $Q$-function. MOSE consistently outperforms both the minimal state construction and single-window policies on common benchmarks and synthetic datasets. Including the minimal representation alongside MOSE can further improve performance. Our results establish a core principle for causal deep RL: minimal sufficiency is not enough, and \emph{controlled redundancy} is necessary to unlock the benefit of causal state information.
- Abstract(参考訳): オンライン強化学習(RL)は、マークフ特性を保証性能に頼っているが、実世界のアプリケーションは、生の観測変数が与えられたとき、よく定義された状態を欠いていることが多い。
因果RLは関心が高まりつつあるが、既存の研究は通常、マルコフ状態が提供され、学習を加速するために因果性を利用することに焦点を合わせ、基本的なギャップを残している: \emph{given a longitudinal causal graph over observed variables,
証明可能な最小限の状態表現を構成するプロシージャを提供することで、この問題に対処する。
ディープRLでは、最小表現のみが経験的に性能向上に失敗し、ニューラルネットワークがマルコフの最小性を直接利用できないことを示す。
これを解決するために,複数階の歴史的状態構造を同じ$Q$関数にフィードする「textbf{MOSE} (Multi-Order State Exposure)」を提案する。
MOSEは、共通ベンチマークと合成データセットにおいて、最小限の状態構築と単一ウィンドウポリシーの両方を一貫して上回る。
MOSEと並行して最小限の表現を含めれば、さらなるパフォーマンス向上が期待できる。
以上の結果から, 因果的深度RLの根本原理として, 最小充足力では不十分であり, 因果的状態情報の利点を解き明かすためには, emph{controlredundancy}が必要であるという結論が得られた。
関連論文リスト
- Neural Co-state Policies: Structuring Hidden States in Recurrent Reinforcement Learning [1.4055388501740322]
インテリジェントエージェントの重要な機能は、部分的な可観測性の下で動作することである。
強化学習を通じて学んだメモリベースのポリシーは、履歴を潜在状態表現にエンコードすることでこの問題に対処するが、内部のダイナミクスは解釈不能なブラックボックスのままである。
本稿では,これらの隠蔽状態と最適制御からポントリャーギン最小原理(PMP)を公式にリンクする。
論文 参考訳(メタデータ) (2026-05-06T18:53:33Z) - Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States [9.28337656721443]
マルコフ状態の導入は、標準RLポストトレーニングの性能境界を一貫して破っていることを示す。
この結果から, 構造化マルコフ表現を優先して「歴史・国家」モデリングを超えて移動することが, オープン・エンド・ディスカバリーの解放に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-03-20T14:35:49Z) - The Key to State Reduction in Linear Attention: A Rank-based Perspective [8.006873922525275]
最近の実験結果から、訓練された線形アテンションモデルの隠れ状態は、しばしば低ランク構造を示すことが示されている。
線形注意におけるランクの役割を理論的に分析し,クエリノイズを増幅することにより,効率の低いランクが検索誤差に影響を与えることを示した。
これらの理論的な洞察に加えて、低ランク状態は訓練後を大幅に減らすことができると推測する。
論文 参考訳(メタデータ) (2026-02-04T18:39:38Z) - Why Self-Rewarding Works: Theoretical Guarantees for Iterative Alignment of Language Models [50.248686344277246]
自己回帰言語モデル(SRLM)は、外部からのフィードバックなしに反復的にアライメントを改善することに成功している。
本稿では,SRLMの厳密な理論的保証について述べる。
論文 参考訳(メタデータ) (2026-01-30T03:45:43Z) - Beyond the Black Box: Identifiable Interpretation and Control in Generative Models via Causal Minimality [52.57416398859353]
因果的最小性は、明確な因果的解釈と頑健でコンポーネント単位で識別可能な制御を持つ拡散視覚と自己回帰言語モデルの潜在表現を許容できることを示す。
我々は階層的選択モデルのための新しい理論的枠組みを導入し、より高レベルな概念は低レベルの変数の制約された構成から生まれる。
これらの因果的基礎を持つ概念は、きめ細かいモデルステアリングのレバーとして機能し、透明で信頼性の高いシステムへの道を開く。
論文 参考訳(メタデータ) (2025-12-11T14:59:14Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Quantifying First-Order Markov Violations in Noisy Reinforcement Learning: A Causal Discovery Approach [0.0]
強化学習 (Reinforcement Learning, RL) 法は、それぞれの新しい観測が環境の状態を完全に反映していると仮定する。
実際には、部分的な可観測性やセンサ/アクチュエータノイズは、この仮定を無効にすることが多い。
本稿では,新しいマルコフ・ヴァイオレーションスコア(MVS)を用いて,このような違反を検出するための体系的手法を提案する。
MVSは、ノイズや不完全な状態情報がマルコフプロパティを乱すときに現れる多段階依存関係を測定する。
論文 参考訳(メタデータ) (2025-02-28T21:42:10Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Submodular Reinforcement Learning [38.40138241424851]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。