論文の概要: Regularized Latent Dynamics Prediction is a Strong Baseline For Behavioral Foundation Models
- arxiv url: http://arxiv.org/abs/2603.15857v1
- Date: Mon, 16 Mar 2026 19:39:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.966923
- Title: Regularized Latent Dynamics Prediction is a Strong Baseline For Behavioral Foundation Models
- Title(参考訳): 正規化潜在ダイナミクス予測は行動基礎モデルのための強力なベースラインである
- Authors: Pranaya Jajoo, Harshit Sikchi, Siddhant Agarwal, Amy Zhang, Scott Niekum, Martha White,
- Abstract要約: 行動基礎モデル(BFM)は、未知の報酬やタスクに適応する能力を持つエージェントを生成する。
これらの手法は、既存の状態特徴の範囲内にある報酬関数に対して、ほぼ最適にポリシーを作成できるのみである。
本稿では,ゼロショットRLに対して,最先端の複雑な表現学習手法に適合または超越可能なRLDP(Regularized Latent Dynamics Prediction)を提案する。
- 参考スコア(独自算出の注目度): 35.088440282359024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioral Foundation Models (BFMs) produce agents with the capability to adapt to any unknown reward or task. These methods, however, are only able to produce near-optimal policies for the reward functions that are in the span of some pre-existing state features, making the choice of state features crucial to the expressivity of the BFM. As a result, BFMs are trained using a variety of complex objectives and require sufficient dataset coverage, to train task-useful spanning features. In this work, we examine the question: are these complex representation learning objectives necessary for zero-shot RL? Specifically, we revisit the objective of self-supervised next-state prediction in latent space for state feature learning, but observe that such an objective alone is prone to increasing state-feature similarity, and subsequently reducing span. We propose an approach, Regularized Latent Dynamics Prediction (RLDP), that adds a simple orthogonality regularization to maintain feature diversity and can match or surpass state-of-the-art complex representation learning methods for zero-shot RL. Furthermore, we empirically show that prior approaches perform poorly in low-coverage scenarios where RLDP still succeeds.
- Abstract(参考訳): 行動基礎モデル(BFM)は、未知の報酬やタスクに適応する能力を持つエージェントを生成する。
しかしながら、これらの手法は、既存の状態特徴の範囲内にある報酬関数に対して、ほぼ最適にしかポリシーを作成できないため、状態特徴の選択はBFMの表現性に不可欠である。
結果として、BFMは様々な複雑な目的を用いて訓練され、タスク用途のスパンニング機能をトレーニングするために十分なデータセットカバレッジを必要とします。
本稿では, ゼロショットRLに必要な複雑な表現学習目標について検討する。
具体的には、状態特徴学習のための潜在空間における自己監督型次状態予測の目的を再考するが、そのような目的だけでは、状態-機能的類似度を増大させ、その後、スパンを減少させる傾向があることを観察する。
特徴多様性を維持するための単純な直交正規化を追加し、ゼロショットRLのための最先端の複雑な表現学習手法に適合または超越できる手法である正規化潜在ダイナミクス予測(RLDP)を提案する。
さらに, RLDP がまだ成功している低被覆シナリオにおいて, 先行手法が不十分であることを示す。
関連論文リスト
- TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning [63.73629127832652]
本稿では,TDに基づく潜在予測表現を教師なしRLに活用するTD-JEPAを紹介する。
TD-JEPAは、明示的な状態とタスクエンコーダ、ポリシー条件付きマルチステップ予測器、パラメータ化されたポリシーのセットを潜時空間で直接訓練する。
実証的には、TD-JEPAは13のデータセットにわたる移動、ナビゲーション、操作のタスクにおいて、最先端のベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2025-10-01T10:21:18Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - Distributional Successor Features Enable Zero-Shot Policy Optimization [36.53356539916603]
本研究は、ゼロショットポリシー最適化のための分散継承機能(DiSPO)という、新しいモデルのクラスを提案する。
DiSPOは、定常データセットの行動ポリシーの後継機能の分布と、データセット内で達成可能な異なる後継機能を実現するためのポリシーを学ぶ。
データセットの長期的な結果を直接モデル化することにより、DiSPOは、報酬関数をまたいだゼロショットポリシー最適化のための単純なスキームを実現しつつ、複雑なエラーを避けることができる。
論文 参考訳(メタデータ) (2024-03-10T22:27:21Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。