論文の概要: Fast Adaptation with Behavioral Foundation Models
- arxiv url: http://arxiv.org/abs/2504.07896v1
- Date: Thu, 10 Apr 2025 16:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:22:04.329529
- Title: Fast Adaptation with Behavioral Foundation Models
- Title(参考訳): 行動基礎モデルによる高速適応
- Authors: Harshit Sikchi, Andrea Tirinzoni, Ahmed Touati, Yingchen Xu, Anssi Kanervisto, Scott Niekum, Amy Zhang, Alessandro Lazaric, Matteo Pirotta,
- Abstract要約: 教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
- 参考スコア(独自算出の注目度): 82.34700481726951
- License:
- Abstract: Unsupervised zero-shot reinforcement learning (RL) has emerged as a powerful paradigm for pretraining behavioral foundation models (BFMs), enabling agents to solve a wide range of downstream tasks specified via reward functions in a zero-shot fashion, i.e., without additional test-time learning or planning. This is achieved by learning self-supervised task embeddings alongside corresponding near-optimal behaviors and incorporating an inference procedure to directly retrieve the latent task embedding and associated policy for any given reward function. Despite promising results, zero-shot policies are often suboptimal due to errors induced by the unsupervised training process, the embedding, and the inference procedure. In this paper, we focus on devising fast adaptation strategies to improve the zero-shot performance of BFMs in a few steps of online interaction with the environment while avoiding any performance drop during the adaptation process. Notably, we demonstrate that existing BFMs learn a set of skills containing more performant policies than those identified by their inference procedure, making them well-suited for fast adaptation. Motivated by this observation, we propose both actor-critic and actor-only fast adaptation strategies that search in the low-dimensional task-embedding space of the pre-trained BFM to rapidly improve the performance of its zero-shot policies on any downstream task. Notably, our approach mitigates the initial "unlearning" phase commonly observed when fine-tuning pre-trained RL models. We evaluate our fast adaptation strategies on top of four state-of-the-art zero-shot RL methods in multiple navigation and locomotion domains. Our results show that they achieve 10-40% improvement over their zero-shot performance in a few tens of episodes, outperforming existing baselines.
- Abstract(参考訳): 教師なしゼロショット強化学習(RL)は、行動基礎モデル(BFM)を事前訓練するための強力なパラダイムとして登場しており、エージェントはゼロショット方式で報酬関数によって指定された幅広い下流タスクを、追加のテスト時間学習や計画なしで解決することができる。
これは、対応する準最適行動と共に自己指導型タスク埋め込みを学習し、任意の報酬関数に対する潜在タスク埋め込みおよび関連するポリシーを直接検索するための推論手順を組み込むことによって達成される。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしトレーニングプロセス、埋め込み、推論手順によって引き起こされるエラーにより、しばしば準最適である。
本稿では,BFMのゼロショット性能を,適応過程における性能低下を回避しつつ,環境とのオンラインインタラクションのいくつかの段階において向上させるための高速適応手法の開発に焦点をあてる。
特に、既存のBFMは、推論手順で特定されたものよりもパフォーマンスの高いポリシーを含む一連のスキルを学習し、迅速な適応に適していることを示す。
本研究は,BFMの低次元タスク埋め込み空間を探索し,下流タスクにおけるゼロショットポリシーの性能を迅速に向上する,アクタークリティカルかつアクターオンリーの高速適応戦略を提案する。
特に,本手法は,事前学習したRLモデルを微調整する場合によく見られる「未学習」フェーズを緩和する。
我々は,複数のナビゲーション領域と移動領域における4つの最先端ゼロショットRL法に基づいて,高速適応手法の評価を行った。
以上の結果から,ゼロショット性能は数十エピソードで10~40%向上し,既存のベースラインを上回る結果が得られた。
関連論文リスト
- Training-Free Zero-Shot Temporal Action Detection with Vision-Language Models [15.17499718666202]
学習自由ゼロショット時間行動検出法(FreeZAD)を提案する。
既存のヴィジュアル言語(ViL)モデルを利用して、未トリミングビデオ内の見えないアクティビティを直接分類し、ローカライズする。
トレーニング不要の手法は、実行時の1/13しか必要とせず、最先端の教師なし手法よりも優れています。
論文 参考訳(メタデータ) (2025-01-23T16:13:58Z) - Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Task Phasing: Automated Curriculum Learning from Demonstrations [46.1680279122598]
報酬ドメインを疎結合にするために強化学習を適用することは、ガイド信号が不十分なため、非常に難しい。
本稿では,実演を用いてカリキュラムのシーケンスを自動的に生成する手法を提案する。
3つのスパース報酬領域に対する実験結果から,我々のタスク・ファスリング・アプローチは,パフォーマンスに関して最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-10-20T03:59:11Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。