論文の概要: Unifying Model-Free Efficiency and Model-Based Representations via Latent Dynamics
- arxiv url: http://arxiv.org/abs/2602.12643v1
- Date: Fri, 13 Feb 2026 06:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.864429
- Title: Unifying Model-Free Efficiency and Model-Based Representations via Latent Dynamics
- Title(参考訳): 潜在ダイナミクスによるモデル自由効率とモデルベース表現の統一
- Authors: Jashaswimalya Acharjee, Balaraman Ravindran,
- Abstract要約: 我々は,新しい強化学習アルゴリズムであるUnified Latent Dynamics (ULD)を提案する。
ULDはモデルベースアプローチの表現力でモデルフリー手法の効率を統一する。
Gymロコモーション、DeepMind Control(プロセプティブおよびビジュアル)、Atariにまたがる80環境での評価を行った。
- 参考スコア(独自算出の注目度): 6.208369829942616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Unified Latent Dynamics (ULD), a novel reinforcement learning algorithm that unifies the efficiency of model-free methods with the representational strengths of model-based approaches, without incurring planning overhead. By embedding state-action pairs into a latent space in which the true value function is approximately linear, our method supports a single set of hyperparameters across diverse domains -- from continuous control with low-dimensional and pixel inputs to high-dimensional Atari games. We prove that, under mild conditions, the fixed point of our embedding-based temporal-difference updates coincides with that of a corresponding linear model-based value expansion, and we derive explicit error bounds relating embedding fidelity to value approximation quality. In practice, ULD employs synchronized updates of encoder, value, and policy networks, auxiliary losses for short-horizon predictive dynamics, and reward-scale normalization to ensure stable learning under sparse rewards. Evaluated on 80 environments spanning Gym locomotion, DeepMind Control (proprioceptive and visual), and Atari, our approach matches or exceeds the performance of specialized model-free and general model-based baselines -- achieving cross-domain competence with minimal tuning and a fraction of the parameter footprint. These results indicate that value-aligned latent representations alone can deliver the adaptability and sample efficiency traditionally attributed to full model-based planning.
- Abstract(参考訳): 我々は,モデルベース手法の表現力でモデルフリー手法の効率を統一する新しい強化学習アルゴリズムであるUnified Latent Dynamics (ULD)を提案する。
実値関数が概線型な潜在空間に状態-作用対を埋め込むことにより、我々は、低次元および画素入力による連続制御から高次元のアタリゲームまで、様々な領域にわたる1組のハイパーパラメーターをサポートする。
弱い条件下では、埋め込みに基づく時間差分更新の固定点が対応する線形モデルに基づく値展開の値と一致することを証明し、埋め込み忠実度と値近似品質の明示的な誤差境界を導出する。
実際には、UDDはエンコーダ、値、ポリシーネットワークの同期更新、短期水平予測ダイナミクスの補助的損失、報酬スケール正規化を採用し、スパース報酬の下で安定した学習を保証する。
GymのロコモーションやDeepMind Control(プロセプティブとビジュアル)、Atariなどを含む80の環境において評価された私たちのアプローチは、モデルフリーで一般的なモデルベースラインのパフォーマンスと一致しているか、あるいは上回っている -- 最小限のチューニングとパラメータフットプリントのごく一部でクロスドメイン能力を達成する。
これらの結果は、バリューアラインな潜在表現だけでは、従来モデルベースの計画に起因した適応性とサンプル効率を提供できることを示している。
関連論文リスト
- Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Distribution Matching via Generalized Consistency Models [4.3343955642269805]
連続正規化フロー(CNF)における整合性モデルに着想を得た分布マッチングの新しい手法を提案する。
我々のモデルは、直進ノルム最小化目標を持つなどCNFモデルの利点を継承するが、GANと同様の異なる制約に適応できる。
論文 参考訳(メタデータ) (2025-08-17T03:37:57Z) - A domain decomposition-based autoregressive deep learning model for unsteady and nonlinear partial differential equations [2.7755345520127936]
非定常・非線形偏微分方程式(PDE)を正確にモデル化するためのドメイン分割型ディープラーニング(DL)フレームワークCoMLSimを提案する。
このフレームワークは、(a)畳み込みニューラルネットワーク(CNN)ベースのオートエンコーダアーキテクチャと(b)完全に接続された層で構成される自己回帰モデルという、2つの重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-08-26T17:50:47Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Structured Optimal Variational Inference for Dynamic Latent Space Models [16.531262817315696]
動的ネットワークの潜在空間モデルについて検討し、その目的は、ペアの内積と潜在位置のインターセプトを推定することである。
後部推論と計算スケーラビリティのバランスをとるために、構造的平均場変動推論フレームワークを検討する。
論文 参考訳(メタデータ) (2022-09-29T22:10:42Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。