論文の概要: TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.00739v1
- Date: Wed, 01 Oct 2025 10:21:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.513798
- Title: TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning
- Title(参考訳): TD-JEPA:ゼロショット強化学習のための潜在予測表現
- Authors: Marco Bagatella, Matteo Pirotta, Ahmed Touati, Alessandro Lazaric, Andrea Tirinzoni,
- Abstract要約: 本稿では,TDに基づく潜在予測表現を教師なしRLに活用するTD-JEPAを紹介する。
TD-JEPAは、明示的な状態とタスクエンコーダ、ポリシー条件付きマルチステップ予測器、パラメータ化されたポリシーのセットを潜時空間で直接訓練する。
実証的には、TD-JEPAは13のデータセットにわたる移動、ナビゲーション、操作のタスクにおいて、最先端のベースラインをマッチまたは上回る。
- 参考スコア(独自算出の注目度): 63.73629127832652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent prediction--where agents learn by predicting their own latents--has emerged as a powerful paradigm for training general representations in machine learning. In reinforcement learning (RL), this approach has been explored to define auxiliary losses for a variety of settings, including reward-based and unsupervised RL, behavior cloning, and world modeling. While existing methods are typically limited to single-task learning, one-step prediction, or on-policy trajectory data, we show that temporal difference (TD) learning enables learning representations predictive of long-term latent dynamics across multiple policies from offline, reward-free transitions. Building on this, we introduce TD-JEPA, which leverages TD-based latent-predictive representations into unsupervised RL. TD-JEPA trains explicit state and task encoders, a policy-conditioned multi-step predictor, and a set of parameterized policies directly in latent space. This enables zero-shot optimization of any reward function at test time. Theoretically, we show that an idealized variant of TD-JEPA avoids collapse with proper initialization, and learns encoders that capture a low-rank factorization of long-term policy dynamics, while the predictor recovers their successor features in latent space. Empirically, TD-JEPA matches or outperforms state-of-the-art baselines on locomotion, navigation, and manipulation tasks across 13 datasets in ExoRL and OGBench, especially in the challenging setting of zero-shot RL from pixels.
- Abstract(参考訳): 潜伏予測 — エージェントが自身の潜伏者を予測することによって学習する — は、マシンラーニングの一般的な表現をトレーニングするための強力なパラダイムとして登場した。
強化学習(RL)では、報酬ベースや教師なしのRL、行動クローニング、世界モデリングなど、様々な場面で補助的損失を定義することが研究されている。
既存の手法は通常、単一タスク学習、ワンステップ予測、あるいは政治軌道データに限られるが、時間差(TD)学習は、オフライン、無報酬遷移から複数のポリシーをまたいだ長期潜在ダイナミクスの予測を学習できることを示している。
そこで本研究では,TDに基づく潜在予測表現を教師なしRLに活用するTD-JEPAを提案する。
TD-JEPAは、明示的な状態とタスクエンコーダ、ポリシー条件付きマルチステップ予測器、潜在空間で直接パラメータ化されたポリシーのセットを訓練する。
これにより、テスト時に任意の報酬関数をゼロショットで最適化できる。
理論的には、TD-JEPAの理想化された変種は適切な初期化による崩壊を回避し、予測器が遅延空間における後継機能を回復している間に、長期的政策力学の低ランク因子化を捉えるエンコーダを学習する。
実証的には、TD-JEPAは、特にピクセルからのゼロショットRLの挑戦的な設定において、ExoRLとOGBenchの13のデータセットにわたる移動、ナビゲーション、および操作タスクの最先端のベースラインをマッチまたは上回る。
関連論文リスト
- Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [61.145371212636505]
強化学習(Reinforcement Learning, RL)は、試行錯誤と最適制御を通じてポリシーを学習し、学習または既知の力学モデルを用いてアクションを計画する。
異なる品質のデータセットを用いて、異なるRLおよび制御に基づく手法の性能を系統的に解析する。
モデルベースプランニングは,新しい環境レイアウト,トラジェクトリー縫合,データ効率などへの一般化に優れる。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。