論文の概要: Manifold-Constrained Energy-Based Transition Models for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.02900v1
- Date: Mon, 02 Feb 2026 23:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.130212
- Title: Manifold-Constrained Energy-Based Transition Models for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのマニフォールド制約エネルギーベース遷移モデル
- Authors: Zeyu Fang, Zuyuan Zhang, Mahdi Imani, Tian Lan,
- Abstract要約: 我々は、多様体射影-拡散負のサンプルを用いた条件付きエネルギーベース遷移モデルを訓練する。
MC-ETMは次の状態の潜在多様体を学習し、ほぼ1次元の強陰性を生成する。
我々は,MC-ETM をハイブリッド悲観的 MDP の定式化により定式化し,非サポート評価誤差をトランケーションリスクから分離した保守的性能を導出する。
- 参考スコア(独自算出の注目度): 13.92596311376194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based offline reinforcement learning is brittle under distribution shift: policy improvement drives rollouts into state--action regions weakly supported by the dataset, where compounding model error yields severe value overestimation. We propose Manifold-Constrained Energy-based Transition Models (MC-ETM), which train conditional energy-based transition models using a manifold projection--diffusion negative sampler. MC-ETM learns a latent manifold of next states and generates near-manifold hard negatives by perturbing latent codes and running Langevin dynamics in latent space with the learned conditional energy, sharpening the energy landscape around the dataset support and improving sensitivity to subtle out-of-distribution deviations. For policy optimization, the learned energy provides a single reliability signal: rollouts are truncated when the minimum energy over sampled next states exceeds a threshold, and Bellman backups are stabilized via pessimistic penalties based on Q-value-level dispersion across energy-guided samples. We formalize MC-ETM through a hybrid pessimistic MDP formulation and derive a conservative performance bound separating in-support evaluation error from truncation risk. Empirically, MC-ETM improves multi-step dynamics fidelity and yields higher normalized returns on standard offline control benchmarks, particularly under irregular dynamics and sparse data coverage.
- Abstract(参考訳): ポリシの改善は、データセットによって弱いサポートを受ける状態-アクション領域へのロールアウトを促進する。
本稿では, 多様体射影拡散負サンプルを用いた条件付きエネルギーベース遷移モデルを訓練する, MC-ETM(Manifold-Constrained Energy-based transition Models)を提案する。
MC-ETMは次の状態の潜在多様体を学習し、遅延符号を摂動させ、学習された条件エネルギーでランゲヴィン力学を潜在空間で実行し、データセットの周囲のエネルギー景観を鋭くし、微妙な分布外偏差に対する感度を向上させることにより、ほぼ1次元の強陰性を生成する。
政策最適化のために、学習されたエネルギーは単一の信頼性信号を提供する:次の状態からサンプリングされた最小エネルギーが閾値を超えるとロールアウトが停止し、ベルマンのバックアップはエネルギー誘導されたサンプルのQ値レベルの分散に基づく悲観的な罰によって安定化される。
我々は,MC-ETM をハイブリッド悲観的 MDP の定式化により定式化し,非サポート評価誤差をトランケーションリスクから分離した保守的性能を導出する。
経験的に、MC-ETMはマルチステップのダイナミックスフィデリティを改善し、標準のオフライン制御ベンチマーク、特に不規則なダイナミックスやスパースデータカバレッジにおいて、より高い正規化リターンを得る。
関連論文リスト
- Energy-Guided Flow Matching Enables Few-Step Conformer Generation and Ground-State Identification [45.52894539097255]
本稿では,明示的な学習エネルギーモデルとフローマッチングを結合する統合フレームワークであるEnFlowを紹介する。
サンプリング中にエネルギー段階的な誘導を取り入れることで,低エネルギー領域への軌道を導出する。
さらに、学習したエネルギー関数は、生成したアンサンブルの効率的なエネルギーベースのランク付けを可能にし、正確な基底状態の同定を可能にする。
論文 参考訳(メタデータ) (2025-12-27T14:00:22Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Metriplectic Conditional Flow Matching for Dissipative Dynamics [5.920407670799846]
条件付きフローマッチングは 第一原理に違反することなく 散逸力学を学習する
MCFMは短いトランジションで条件付きフローマッチングを通し、長いロールアウトの隣り合わせを避ける。
我々は、このパラメータ化とサンプリングを保存、単調散逸、安定したロールアウトにリンクする連続的かつ離散的な時間保証を提供する。
論文 参考訳(メタデータ) (2025-09-23T19:46:54Z) - Kolmogorov-Arnold Energy Models: Fast and Interpretable Generative Modeling [0.0]
構造的および帰納的バイアスを利用するために,Kolmogorov-Arnold Energy Model (KAEM)を導入する。
KAEMは一般的な生成モデリングトレードオフのバランスをとり、高速な推論、解釈可能性、安定したトレーニングを提供する。
論文 参考訳(メタデータ) (2025-06-17T04:07:32Z) - Energy Matching: Unifying Flow Matching and Energy-Based Models for Generative Modeling [5.787270247104665]
現在の最先端生成モデルは、フローやスコアの一致によって、ノイズをデータ分布にマッピングする。
本稿では,ESMの柔軟性を備えたフローベースアプローチを実現するフレームワークであるEnergy Matchingを提案する。
論文 参考訳(メタデータ) (2025-04-14T18:10:58Z) - Learning Energy-Based Prior Model with Diffusion-Amortized MCMC [89.95629196907082]
非収束短距離MCMCを用いた事前及び後方サンプリングによる潜時空間EMM学習の一般的な実践は、さらなる進歩を妨げている。
本稿では,MCMCサンプリングのための単純だが効果的な拡散型アモータイズ手法を導入し,それに基づく潜時空間EMMのための新しい学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-05T00:23:34Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - No MCMC for me: Amortized sampling for fast and stable training of
energy-based models [62.1234885852552]
エネルギーベースモデル(EBM)は、不確実性を表す柔軟で魅力的な方法である。
本稿では,エントロピー規則化ジェネレータを用いてEMMを大規模に訓練し,MCMCサンプリングを記憶する簡単な方法を提案する。
次に、最近提案されたジョイント・エナジー・モデル(JEM)に推定器を適用し、元の性能と高速で安定したトレーニングとを一致させる。
論文 参考訳(メタデータ) (2020-10-08T19:17:20Z) - Training Deep Energy-Based Models with f-Divergence Minimization [113.97274898282343]
深部エネルギーベースモデル(EBM)は分布パラメトリゼーションにおいて非常に柔軟であるが、計算的に困難である。
所望のf偏差を用いてEMMを訓練するための、f-EBMと呼ばれる一般的な変分フレームワークを提案する。
実験の結果,F-EBMは対照的なばらつきよりも優れており,KL以外のf-divergencesを用いたEBMの訓練の利点も示された。
論文 参考訳(メタデータ) (2020-03-06T23:11:13Z) - Targeted free energy estimation via learned mappings [66.20146549150475]
自由エネルギー摂動 (FEP) は60年以上前にズワンツィヒによって自由エネルギー差を推定する方法として提案された。
FEPは、分布間の十分な重複の必要性という厳しい制限に悩まされている。
目標自由エネルギー摂動(Targeted Free Energy Perturbation)と呼ばれるこの問題を緩和するための1つの戦略は、オーバーラップを増やすために構成空間の高次元マッピングを使用する。
論文 参考訳(メタデータ) (2020-02-12T11:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。