論文の概要: SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics
- arxiv url: http://arxiv.org/abs/2506.01844v1
- Date: Mon, 02 Jun 2025 16:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.323839
- Title: SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics
- Title(参考訳): SmolVLA:高機能・高効率ロボティクスのためのビジョンランゲージ・アクションモデル
- Authors: Mustafa Shukor, Dana Aubakirova, Francesco Capuano, Pepijn Kooijmans, Steven Palma, Adil Zouitine, Michel Aractingi, Caroline Pascal, Martino Russi, Andres Marafioti, Simon Alibert, Matthieu Cord, Thomas Wolf, Remi Cadene,
- Abstract要約: 視覚言語モデル(VLM)は、豊富な視覚的および言語的知識を符号化した大規模マルチモーダルデータセットで事前訓練された。
SmolVLAは、トレーニングと推論の両方のコストを大幅に削減する、小さく、効率的で、コミュニティ主導のVLAである。
- 参考スコア(独自算出の注目度): 37.82471658370026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) pretrained on large-scale multimodal datasets encode rich visual and linguistic knowledge, making them a strong foundation for robotics. Rather than training robotic policies from scratch, recent approaches adapt VLMs into vision-language-action (VLA) models that enable natural language-driven perception and control. However, existing VLAs are typically massive--often with billions of parameters--leading to high training costs and limited real-world deployability. Moreover, they rely on academic and industrial datasets, overlooking the growing availability of community-collected data from affordable robotic platforms. In this work, we present SmolVLA, a small, efficient, and community-driven VLA that drastically reduces both training and inference costs, while retaining competitive performance. SmolVLA is designed to be trained on a single GPU and deployed on consumer-grade GPUs or even CPUs. To further improve responsiveness, we introduce an asynchronous inference stack decoupling perception and action prediction from action execution, allowing higher control rates with chunked action generation. Despite its compact size, SmolVLA achieves performance comparable to VLAs that are 10x larger. We evaluate SmolVLA on a range of both simulated as well as real-world robotic benchmarks and release all code, pretrained models, and training data.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚と言語に関する豊富な知識を符号化した大規模マルチモーダルデータセットで事前訓練されており、ロボット工学の強力な基盤となっている。
ロボットポリシーをゼロからトレーニングするのではなく、近年のアプローチでは、VLMを視覚言語アクション(VLA)モデルに適応させ、自然言語による知覚と制御を可能にしている。
しかしながら、既存のVLAは通常、数十億のパラメータを持つ大規模なものになります。
さらに、彼らは学術的、産業的なデータセットに依存しており、手頃なロボットプラットフォームからコミュニティが収集したデータの増加を見越している。
本研究では,競争性能を維持しつつ,トレーニングと推論の両方のコストを大幅に削減する,小規模で効率的かつコミュニティ主導のVLAであるSmolVLAを提案する。
SmolVLAは単一のGPUでトレーニングされ、コンシューマグレードのGPUやCPUにデプロイされるように設計されている。
応答性をさらに向上するため、動作実行から知覚と行動予測を分離する非同期推論スタックを導入し、チャンクされた動作生成による制御率の向上を実現する。
コンパクトなサイズにもかかわらず、SmolVLAは10倍のVLAに匹敵する性能を実現している。
我々は、シミュレーションと実世界のロボットベンチマークの両方でSmolVLAを評価し、すべてのコード、事前訓練されたモデル、トレーニングデータをリリースする。
関連論文リスト
- CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。