論文の概要: Geometry of Drifting MDPs with Path-Integral Stability Certificates
- arxiv url: http://arxiv.org/abs/2601.21991v1
- Date: Thu, 29 Jan 2026 17:03:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.024609
- Title: Geometry of Drifting MDPs with Path-Integral Stability Certificates
- Title(参考訳): 経路内安定証明書付きドリフトMDPの幾何学
- Authors: Zuyuan Zhang, Mahdi Imani, Tian Lan,
- Abstract要約: 実世界の強化学習は、しばしば非定常的であり、報酬と力学は最適な行動において急激なスイッチを起動し、加速し、振動し、引き起こす。
環境を相異なるホモトピーパスとしてモデル化し、最適なベルマン固定点の誘導運動を追跡することにより、非定常割引マルコフ決定過程(MDPs)の幾何学的ビューを得る。
これは、累積ドリフト、加速度/振動、アクションギャップによって引き起こされる非滑らかさという、内在的な複雑さの、長さ-曲率-キンクのシグネチャをもたらす。
- 参考スコア(独自算出の注目度): 14.721539799090904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world reinforcement learning is often \emph{nonstationary}: rewards and dynamics drift, accelerate, oscillate, and trigger abrupt switches in the optimal action. Existing theory often represents nonstationarity with coarse-scale models that measure \emph{how much} the environment changes, not \emph{how} it changes locally -- even though acceleration and near-ties drive tracking error and policy chattering. We take a geometric view of nonstationary discounted Markov Decision Processes (MDPs) by modeling the environment as a differentiable homotopy path and tracking the induced motion of the optimal Bellman fixed point. This yields a length--curvature--kink signature of intrinsic complexity: cumulative drift, acceleration/oscillation, and action-gap-induced nonsmoothness. We prove a solver-agnostic path-integral stability bound and derive gap-safe feasible regions that certify local stability away from switch regimes. Building on these results, we introduce \textit{Homotopy-Tracking RL (HT-RL)} and \textit{HT-MCTS}, lightweight wrappers that estimate replay-based proxies of length, curvature, and near-tie proximity online and adapt learning or planning intensity accordingly. Experiments show improved tracking and dynamic regret over matched static baselines, with the largest gains in oscillatory and switch-prone regimes.
- Abstract(参考訳): 実世界の強化学習は、しばしば「emph{nonstationary}」と呼ばれる:報酬と力学は、最適な動作において急激なスイッチをドリフトし、加速し、振動し、引き起こす。
既存の理論は、環境の変化を測定する粗いスケールのモデルでしばしば非定常性を表す。
環境を相異なるホモトピーパスとしてモデル化し、最適なベルマン固定点の誘導運動を追跡することにより、非定常割引マルコフ決定過程(MDPs)の幾何学的ビューを得る。
これは、累積ドリフト、加速度/振動、アクションギャップによって引き起こされる非滑らかさという、内在的な複雑さの、長さ-曲率-キンクのシグネチャをもたらす。
スイッチ状態から局所的な安定性を証明できるギャップセーフの実現可能な領域を導出する。
これらの結果に基づいて, 長さ, 曲率, 近点近接のリプレイベースのプロキシを推定し, 学習や計画の強度に適応する軽量ラッパーである, HT-RL と HT-MCTS を導入する。
実験では、一致した静的ベースラインに対する追跡とダイナミックな後悔の改善が示され、発振とスイッチの急激なレシエーションの最大の増加が見られた。
関連論文リスト
- On the Provable Suboptimality of Momentum SGD in Nonstationary Stochastic Optimization [0.0]
各種段差系における均一な凸性および滑らか性の下でのグラディエントDescentの追跡性能を解析した。
本研究では,ドリフトによる追従誤差を大幅に増幅し,追従能力に明らかなペナルティを与えることを示す。
これらの結果は、動的環境における運動量の経験的不安定性に対する決定的な理論的根拠を与える。
論文 参考訳(メタデータ) (2026-01-18T03:27:21Z) - Unifying Sign and Magnitude for Optimizing Deep Vision Networks via ThermoLion [0.0]
現在のパラダイムは、情報チャネルドリフトパラメータに静的な妥協を課している。
我々は「低次元」探索モデルと「低次元」動的アライメントフレームワークを導入する。
論文 参考訳(メタデータ) (2025-12-01T17:04:17Z) - Towards Stable and Structured Time Series Generation with Perturbation-Aware Flow Matching [16.17115009663765]
安定かつ構造的に一貫した時系列生成を保証するために、摂動軌道をモデル化するフレームワークである textbfPAFM を導入する。
このフレームワークは摂動誘導訓練を取り入れ、局所的な乱れをシミュレートし、二経路速度場を利用して摂動下での軌道偏差を捉える。
非条件および条件生成タスクの両方の実験において、PAFMは強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-11-18T13:30:56Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Forecasting Continuous Non-Conservative Dynamical Systems in SO(3) [51.510040541600176]
コンピュータビジョンにおける移動物体の回転をモデル化するための新しい手法を提案する。
我々のアプローチは、入力ノイズに対して頑健でありながら、エネルギーと運動量保存に非依存である。
トレーニング中の雑音状態から物体のダイナミクスを近似させることで、シミュレーションや様々な現実世界の設定において頑健な外挿能力が得られる。
論文 参考訳(メタデータ) (2025-08-11T09:03:10Z) - MATE: Motion-Augmented Temporal Consistency for Event-based Point Tracking [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
事象の間隔に起因する曖昧さを解決するため、運動誘導モジュールは運動ベクトルを局所的なマッチングプロセスに組み込む。
このメソッドは、任意のポイントベースラインのイベントのみのトラッキングに対して、$Survival_50$メトリックを17.9%改善する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - Pushing the Envelope of Rotation Averaging for Visual SLAM [69.7375052440794]
視覚SLAMシステムのための新しい最適化バックボーンを提案する。
従来の単分子SLAMシステムの精度, 効率, 堅牢性を向上させるために, 平均化を活用している。
我々のアプローチは、公開ベンチマークの最先端技術に対して、同等の精度で最大10倍高速に表示することができる。
論文 参考訳(メタデータ) (2020-11-02T18:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。