論文の概要: Cochain Perspectives on Temporal-Difference Signals for Learning Beyond Markov Dynamics
- arxiv url: http://arxiv.org/abs/2602.06939v1
- Date: Fri, 06 Feb 2026 18:35:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.533033
- Title: Cochain Perspectives on Temporal-Difference Signals for Learning Beyond Markov Dynamics
- Title(参考訳): Cochain Perspectives on Temporal-Difference Signals for Learning Beyond Markov Dynamics
- Authors: Zuyuan Zhang, Sizhe Tang, Tian Lan,
- Abstract要約: 本稿では,時間差に基づく強化学習の新たな視点について述べる。
状態遷移のトポロジカル空間におけるTD誤差は1-cochainとみなすことができ、マルコフ力学はトポロジカル可積分性と解釈される。
この新しい視点は、Hodge型TD誤差を可積分成分と位相的残差に分解することを可能にする。
- 参考スコア(独自算出の注目度): 8.820825533010543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Non-Markovian dynamics are commonly found in real-world environments due to long-range dependencies, partial observability, and memory effects. The Bellman equation that is the central pillar of Reinforcement learning (RL) becomes only approximately valid under Non-Markovian. Existing work often focus on practical algorithm designs and offer limited theoretical treatment to address key questions, such as what dynamics are indeed capturable by the Bellman framework and how to inspire new algorithm classes with optimal approximations. In this paper, we present a novel topological viewpoint on temporal-difference (TD) based RL. We show that TD errors can be viewed as 1-cochain in the topological space of state transitions, while Markov dynamics are then interpreted as topological integrability. This novel view enables us to obtain a Hodge-type decomposition of TD errors into an integrable component and a topological residual, through a Bellman-de Rham projection. We further propose HodgeFlow Policy Search (HFPS) by fitting a potential network to minimize the non-integrable projection residual in RL, achieving stability/sensitivity guarantees. In numerical evaluations, HFPS is shown to significantly improve RL performance under non-Markovian.
- Abstract(参考訳): 非マルコフ力学は、長距離依存、部分観測可能性、メモリ効果などにより、現実世界で一般的に見られる。
強化学習(RL)の中心柱であるベルマン方程式は、非マルコフ方程式の下ではほとんど有効ではない。
既存の研究は、しばしば実用的なアルゴリズム設計に焦点を合わせ、ベルマンフレームワークでどのダイナミクスが実際に許容できるのか、そして最適な近似で新しいアルゴリズムクラスを刺激する方法など、重要な問題に対処するための限定的な理論的処理を提供する。
本稿では、時間差(TD)に基づくRLの新しいトポロジ的視点を示す。
状態遷移のトポロジカル空間におけるTD誤差は1-cochainとみなすことができ、マルコフ力学はトポロジカル可積分性と解釈される。
この新しい視点により、ベルマン・ド・ラム射影により、積分可能成分と位相的残差にTD誤差のホッジ型分解が得られる。
さらに、RLの非可積分射影残差を最小限に抑え、安定性/感度保証を実現するために、潜在的ネットワークを組み込むことにより、HodgeFlow Policy Search (HFPS)を提案する。
数値評価では、HFPSは非マルコフ条件下でのRL性能を著しく向上させる。
関連論文リスト
- Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Beyond Ensembles: Simulating All-Atom Protein Dynamics in a Learned Latent Space [4.5211402678313135]
LD-FPGの学習潜在空間内でのダイナミクスをシミュレーションするモジュールコンポーネントであるGraph Latent Dynamics Propagator (GLDP)を紹介する。
我々は,スコア誘導ランゲヴィン力学,(ii)クープマンに基づく線形作用素,(iii)自己回帰ニューラルネットワークの3種類のプロパゲータを比較した。
統合エンコーダ・プロパゲータ・デコーダ・フレームワーク内では、長い水平安定性、バックボーンとサイドチェーンのアンサンブルの忠実さ、機能的自由エネルギーの景観を評価する。
論文 参考訳(メタデータ) (2025-09-02T11:09:06Z) - Uncertainty quantification for Markov chain induced martingales with application to temporal difference learning [55.197497603087065]
線形関数近似を用いた時間差分学習アルゴリズムの性能解析を行った。
マルコフ連鎖によって誘導されるベクトル値マルティンタに対する新規で一般的な高次元濃度不等式とベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2025-02-19T15:33:55Z) - Rich-Observation Reinforcement Learning with Continuous Latent Dynamics [43.84391209459658]
本稿では,高次元観測に基づく制御を行うRichCLD(Rich-Observation RL with Continuous Latent Dynamics)を提案する。
我々の主な貢献は、統計的かつ計算学的に効率的であるこの設定のための新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-29T17:02:49Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Exploring the Noise Resilience of Successor Features and Predecessor
Features Algorithms in One and Two-Dimensional Environments [0.0]
本研究は,雑音環境下での逐次的特徴(SF)と先行的特徴(PF)アルゴリズムのダイナミクスを考察する。
SFは優れた適応性を示し、様々な騒音レベルにわたって堅牢な性能を維持した。
本研究は、計算神経科学と強化学習の橋渡し談話に寄与する。
論文 参考訳(メタデータ) (2023-04-14T02:06:22Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。