論文の概要: Self-Improving Embodied Foundation Models
- arxiv url: http://arxiv.org/abs/2509.15155v1
- Date: Thu, 18 Sep 2025 17:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.354494
- Title: Self-Improving Embodied Foundation Models
- Title(参考訳): 自己改善型エボディードファンデーションモデル
- Authors: Seyed Kamyar Seyed Ghasemipour, Ayzaan Wahid, Jonathan Tompson, Pannag Sanketi, Igor Mordatch,
- Abstract要約: ロボット工学における2段階のポストトレーニング手法を提案する。
第1段階であるSupervised Fine-Tuning (SFT) は、a) 行動クローニングとb) ステップ・トゥ・ゴーの予測目的の両方を用いたファインチューン事前訓練基礎モデルである。
第2段階では、ステップ・トゥ・ゴー予測により、良好な形状の報酬関数と堅牢な成功検出器の抽出が可能となる。
- 参考スコア(独自算出の注目度): 21.81624145902717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models trained on web-scale data have revolutionized robotics, but their application to low-level control remains largely limited to behavioral cloning. Drawing inspiration from the success of the reinforcement learning stage in fine-tuning large language models, we propose a two-stage post-training approach for robotics. The first stage, Supervised Fine-Tuning (SFT), fine-tunes pretrained foundation models using both: a) behavioral cloning, and b) steps-to-go prediction objectives. In the second stage, Self-Improvement, steps-to-go prediction enables the extraction of a well-shaped reward function and a robust success detector, enabling a fleet of robots to autonomously practice downstream tasks with minimal human supervision. Through extensive experiments on real-world and simulated robot embodiments, our novel post-training recipe unveils significant results on Embodied Foundation Models. First, we demonstrate that the combination of SFT and Self-Improvement is significantly more sample-efficient than scaling imitation data collection for supervised learning, and that it leads to policies with significantly higher success rates. Further ablations highlight that the combination of web-scale pretraining and Self-Improvement is the key to this sample-efficiency. Next, we demonstrate that our proposed combination uniquely unlocks a capability that current methods cannot achieve: autonomously practicing and acquiring novel skills that generalize far beyond the behaviors observed in the imitation learning datasets used during training. These findings highlight the transformative potential of combining pretrained foundation models with online Self-Improvement to enable autonomous skill acquisition in robotics. Our project website can be found at https://self-improving-efms.github.io .
- Abstract(参考訳): Webスケールのデータに基づいてトレーニングされたファンデーションモデルは、ロボティクスに革命をもたらしたが、その低レベル制御への応用は、行動クローンに大きく制限されている。
そこで本研究では,ロボット工学の2段階後学習手法を提案する。
第1段、スーパーバイザード・ファインチューニング(SFT)、ファインチューン事前訓練基礎モデル。
行動的クローン,および
b) 段階から段階までの予測目標
第2段階では、ステップ・トゥ・ゴー予測により、十分に形が整った報酬関数と堅牢な成功検知器の抽出が可能になり、ロボット群が人間の監督を最小限にして下流のタスクを自律的に実行できるようになる。
実世界およびシミュレートされたロボットのエボディメントに関する広範な実験を通じて、我々の新しいポストトレーニングレシピは、Embodied Foundation Modelsにおける重要な成果を誇示する。
まず、SFTと自己改善の組み合わせは、教師付き学習のための模倣データ収集をスケールするよりも、はるかにサンプリング効率が高く、成功率の高いポリシーにつながることを実証する。
さらに、Webスケールの事前トレーニングと自己改善の組み合わせが、このサンプル効率の鍵であることを強調している。
次に、提案した組み合わせは、訓練中に使用される模倣学習データセットで見られる振る舞いをはるかに超越した、新しいスキルを自律的に練習し、獲得する、現在の手法が達成できない能力を、一意に解き放つことを実証する。
これらの知見は、ロボット工学における自律的なスキル獲得を可能にするために、事前訓練された基礎モデルとオンラインの自己改善を組み合わせることの変革の可能性を強調している。
プロジェクトのWebサイトはhttps://self-improving-efms.github.io にある。
関連論文リスト
- Sample Efficient Robot Learning in Supervised Effect Prediction Tasks [0.0]
MUSEL(Model Uncertainty for Sample-Efficient Learning)は、ロボット工学における回帰タスクに適した新しいALフレームワークである。
MUSELは学習精度とサンプル効率を両立させ,情報的サンプルを選択する学習行動効果の有効性を検証した。
論文 参考訳(メタデータ) (2024-12-03T09:48:28Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。
我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。
実験により,ベイズモデルに基づくRL手法の利点が示された。
論文 参考訳(メタデータ) (2024-04-02T11:44:37Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。