論文の概要: Robust Finetuning of Vision-Language-Action Robot Policies via Parameter Merging
- arxiv url: http://arxiv.org/abs/2512.08333v2
- Date: Thu, 18 Dec 2025 10:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 14:03:03.126646
- Title: Robust Finetuning of Vision-Language-Action Robot Policies via Parameter Merging
- Title(参考訳): パラメータマージによる視覚言語対応型ロボットのロバストファインタニング
- Authors: Yajat Yadav, Zhiyuan Zhou, Andrew Wagenmaker, Karl Pertsch, Sergey Levine,
- Abstract要約: 大規模で多様なデータセットに基づいて訓練された汎用ロボットポリシーは、一般化する能力を実証している。
トレーニングデータに含まれていない新しいタスクにはまだ不足しています。
本研究では,ファインタニング時の一般政策の一般化能力を保全する手法を開発した。
- 参考スコア(独自算出の注目度): 53.41119829581115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalist robot policies, trained on large and diverse datasets, have demonstrated the ability to generalize across a wide spectrum of behaviors, enabling a single policy to act in varied real-world environments. However, they still fall short on new tasks not covered in the training data. When finetuned on limited demonstrations of a new task, these policies often overfit to the specific demonstrations--not only losing their prior abilities to solve a wide variety of generalist tasks but also failing to generalize within the new task itself. In this work, we aim to develop a method that preserves the generalization capabilities of the generalist policy during finetuning, allowing a single policy to robustly incorporate a new skill into its repertoire. Our goal is a single policy that both learns to generalize to variations of the new task and retains the broad competencies gained from pretraining. We show that this can be achieved through a simple yet effective strategy: interpolating the weights of a finetuned model with that of the pretrained model. We show, across extensive simulated and real-world experiments, that such model merging produces a single model that inherits the generalist abilities of the base model and learns to solve the new task robustly, outperforming both the pretrained and finetuned model on out-of-distribution variations of the new task. Moreover, we show that model merging performance scales with the amount of pretraining data, and enables continual acquisition of new skills in a lifelong learning setting, without sacrificing previously learned generalist abilities.
- Abstract(参考訳): 大規模で多様なデータセットに基づいて訓練されたジェネラリストロボットポリシーは、幅広い行動範囲にまたがる一般化能力を示し、単一のポリシーを現実世界のさまざまな環境で動作させることを可能にした。
しかし、トレーニングデータに含まれていない新しいタスクにはまだ不足している。
新しいタスクの限られたデモンストレーションを微調整すると、これらのポリシーは特定のデモに過度に適合することが多く、様々なジェネラリストのタスクを解く能力を失うだけでなく、新しいタスク自体内での一般化にも失敗する。
本研究は、ファインタニング中のジェネラリスト政策の一般化能力を保全し、単一のポリシーがレパートリーに新しいスキルをしっかりと組み込むことを可能にする手法を開発することを目的とする。
我々のゴールは、新しいタスクのバリエーションに一般化することを学び、事前訓練で得られる幅広い能力を維持する、単一のポリシーである。
この手法は, 微調整モデルの重みと事前学習モデルの重みを補間する, 単純かつ効果的な戦略によって実現可能であることを示す。
シミュレーションおよび実世界の広範囲にわたる実験において、このようなモデル統合は、ベースモデルの汎用能力を継承し、新しいタスクを堅牢に解決することを学ぶ単一のモデルを生成し、新しいタスクのアウト・オブ・ディストリビューションのバリエーションにおいて、事前訓練されたモデルと微調整されたモデルの両方より優れていることを示す。
さらに,モデルマージ性能は事前学習データ量とともにスケールし,これまでに学習した一般の能力を犠牲にすることなく,生涯学習環境における新たなスキルの継続的な獲得を可能にすることを示す。
関連論文リスト
- Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Model Based Meta Learning of Critics for Policy Gradients [19.431964785397717]
本稿では,勾配に基づく政策学習に対する批判をメタ学習する枠組みを提案する。
我々のアルゴリズムは、与えられたタスクに対して、基礎的真理Q関数に類似した学習的批評家に導かれる。
メタトレーニングの後、学習した批評家は、新しい目に見えないタスクと環境設定のための新しいポリシーを学ぶのに使うことができる。
論文 参考訳(メタデータ) (2022-04-05T13:43:12Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Learning Adaptable Policy via Meta-Adversarial Inverse Reinforcement
Learning for Decision-making Tasks [2.1485350418225244]
Meta- LearningとAdversarial Inverseforcement Learningを統合した適応型模倣学習モデルを構築します。
敵対的学習と逆強化学習メカニズムを利用して、利用可能なトレーニングタスクからポリシーと報酬機能を同時に学習します。
論文 参考訳(メタデータ) (2021-03-23T17:16:38Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。