論文の概要: Zero-Shot Adaptation of Behavioral Foundation Models to Unseen Dynamics
- arxiv url: http://arxiv.org/abs/2505.13150v1
- Date: Mon, 19 May 2025 14:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.643652
- Title: Zero-Shot Adaptation of Behavioral Foundation Models to Unseen Dynamics
- Title(参考訳): 行動基礎モデルのゼロショット適応と未知のダイナミクス
- Authors: Maksim Bobrin, Ilya Zisman, Alexander Nikulin, Vladislav Kurenkov, Dmitry Dylov,
- Abstract要約: 行動基礎モデル(BFM)は、任意のタスクに対してゼロショットでポリシーを作成することに成功した。
ここでは,BFMファミリーの手法の1つであるフォワード・バックワード(FB)表現が,異なるダイナミクスを区別できないことを示す。
本稿では,ゼロショット適応を大幅に促進するトランスフォーマーに基づく信念推定器を備えたFBモデルを提案する。
- 参考スコア(独自算出の注目度): 42.446740732573296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioral Foundation Models (BFMs) proved successful in producing policies for arbitrary tasks in a zero-shot manner, requiring no test-time training or task-specific fine-tuning. Among the most promising BFMs are the ones that estimate the successor measure learned in an unsupervised way from task-agnostic offline data. However, these methods fail to react to changes in the dynamics, making them inefficient under partial observability or when the transition function changes. This hinders the applicability of BFMs in a real-world setting, e.g., in robotics, where the dynamics can unexpectedly change at test time. In this work, we demonstrate that Forward-Backward (FB) representation, one of the methods from the BFM family, cannot distinguish between distinct dynamics, leading to an interference among the latent directions, which parametrize different policies. To address this, we propose a FB model with a transformer-based belief estimator, which greatly facilitates zero-shot adaptation. We also show that partitioning the policy encoding space into dynamics-specific clusters, aligned with the context-embedding directions, yields additional gain in performance. These traits allow our method to respond to the dynamics observed during training and to generalize to unseen ones. Empirically, in the changing dynamics setting, our approach achieves up to a 2x higher zero-shot returns compared to the baselines for both discrete and continuous tasks.
- Abstract(参考訳): 行動基礎モデル(BFM)は、テストタイムトレーニングやタスク固有の微調整を必要とせず、ゼロショットで任意のタスクのポリシーを作成することに成功した。
最も有望なBFMは、タスク非依存のオフラインデータから教師なしの方法で得られた後継測度を推定するものである。
しかし、これらの手法は力学の変化に反応せず、部分観測可能性や遷移関数が変化した場合に非効率になる。
これにより、ロボット工学のような実世界の環境でのBFMの適用性が阻害される。
本研究では、BFMファミリーの手法の一つであるフォワード・バックワード(FB)表現が、異なるダイナミクスを区別することができず、遅延方向間の干渉が生じ、異なるポリシーがパラメトリケートされることを実証する。
そこで本研究では,ゼロショット適応を大幅に促進するトランスフォーマーに基づく信念推定器を備えたFBモデルを提案する。
また、ポリシーエンコーディング空間を動的クラスタに分割し、コンテキスト埋め込み方向に合わせることで、パフォーマンスがさらに向上することを示す。
これらの特徴により,本手法はトレーニング中に観察されるダイナミックスに反応し,目に見えないものに一般化することができる。
実験的に、動的に変化する場合、我々の手法は離散タスクと連続タスクの両方のベースラインと比較して最大2倍高いゼロショットリターンを達成する。
関連論文リスト
- Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - EUCLID: Towards Efficient Unsupervised Reinforcement Learning with
Multi-choice Dynamics Model [46.99510778097286]
教師なし強化学習(URL)は,タスクに依存しない環境で有用な行動を学ぶための,有望なパラダイムである。
本研究では,事前学習フェーズにおける動的モデルと教師なし探索ポリシーを協調的に事前学習するための,新しいモデル融合パラダイムを提案する。
本研究では,EUCLIDが高サンプリング効率で最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2022-10-02T12:11:44Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - A New Representation of Successor Features for Transfer across
Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。
ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。
我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文 参考訳(メタデータ) (2021-07-18T12:37:05Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Task-Agnostic Online Reinforcement Learning with an Infinite Mixture of
Gaussian Processes [25.513074215377696]
本稿では,連続的なオンラインモデルに基づく強化学習手法を提案する。
未知のタスク境界を持つタスク非依存の問題を解決するためには、事前トレーニングを必要としない。
実験では,本手法は非定常タスクにおける代替手法よりも優れている。
論文 参考訳(メタデータ) (2020-06-19T23:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。