論文の概要: A Pragmatic VLA Foundation Model
- arxiv url: http://arxiv.org/abs/2601.18692v1
- Date: Mon, 26 Jan 2026 17:08:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.955455
- Title: A Pragmatic VLA Foundation Model
- Title(参考訳): 実用的VLA基礎モデル
- Authors: Wei Wu, Fan Lu, Yunnan Wang, Shuai Yang, Shi Liu, Fangjing Wang, Qian Zhu, He Sun, Yong Wang, Shuailei Ma, Yiyu Ren, Kejia Zhang, Hui Yu, Jingmei Zhao, Shuai Zhou, Zhenqi Qiu, Houlong Xiong, Ziyu Wang, Zechen Wang, Ran Cheng, Yong-Lu Li, Yongtao Huang, Xing Zhu, Yujun Shen, Kecheng Zheng,
- Abstract要約: 我々はLingBot-VLAを開発し、9つの人気のデュアルアームロボット構成から約2万時間のリアルタイムデータを収集した。
我々のモデルは競争相手よりも明らかな優位性を実現し、その強靭な性能と広範な一般化性を示している。
ロボット学習の分野を前進させるために、コード、ベースモデル、ベンチマークデータへのオープンアクセスを提供する。
- 参考スコア(独自算出の注目度): 66.76609538850478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offering great potential in robotic manipulation, a capable Vision-Language-Action (VLA) foundation model is expected to faithfully generalize across tasks and platforms while ensuring cost efficiency (e.g., data and GPU hours required for adaptation). To this end, we develop LingBot-VLA with around 20,000 hours of real-world data from 9 popular dual-arm robot configurations. Through a systematic assessment on 3 robotic platforms, each completing 100 tasks with 130 post-training episodes per task, our model achieves clear superiority over competitors, showcasing its strong performance and broad generalizability. We have also built an efficient codebase, which delivers a throughput of 261 samples per second per GPU with an 8-GPU training setup, representing a 1.5~2.8$\times$ (depending on the relied VLM base model) speedup over existing VLA-oriented codebases. The above features ensure that our model is well-suited for real-world deployment. To advance the field of robot learning, we provide open access to the code, base model, and benchmark data, with a focus on enabling more challenging tasks and promoting sound evaluation standards.
- Abstract(参考訳): ロボット操作において大きな可能性を提供するため、有能なVision-Language-Action(VLA)基盤モデルは、コスト効率(例えば、適応に必要なデータとGPU時間)を確保しながら、タスクやプラットフォームを忠実に一般化することが期待されている。
この目的のために、LingBot-VLAを開発した。
3つのロボットプラットフォームを体系的に評価し、各タスクが100タスクを完了し、1タスクにつき130エピソードを学習した後、競技者よりも明らかな優位性を実現し、その性能と広範囲な一般化性を示す。
既存のVLA指向コードベースよりも1.5~2.8$\times$(信頼性の高いVLMベースモデルに依存している)のスピードアップを表現した8GPUトレーニングセットアップで、GPU毎の毎秒261サンプルのスループットを提供する効率的なコードベースも構築しています。
上記の機能は、私たちのモデルが現実世界のデプロイメントに適していることを保証します。
ロボット学習の分野を前進させるために、我々は、より困難なタスクの実現と音質評価標準の推進に焦点をあて、コード、ベースモデル、ベンチマークデータへのオープンアクセスを提供する。
関連論文リスト
- Towards Accessible Physical AI: LoRA-Based Fine-Tuning of VLA Models for Real-World Robot Control [0.0]
本稿では,VLAモデルを低コストなロボット操作システムに適用するための,効率的な微調整手法と実世界の展開分析について述べる。
本稿では,LoRA(Lo-Rank Adaptation)と量子化技術を用いた資源効率の高い微調整手法を提案する。
本手法は,事前学習したVLAモデルを,限られた実演データを持つ新しいロボット体に適応させる上で重要な課題に対処する。
論文 参考訳(メタデータ) (2025-12-11T16:25:30Z) - Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment [13.582337741042773]
VLA(Vision-Language-Action)モデルは、知覚、言語、制御を統一し、ロボットがマルチモーダル理解を通じて多様なタスクを実行できる強力なフレームワークとして登場した。
現行のVLAモデルは一般に大量のパラメータを含んでおり、大規模なロボットデータの事前トレーニングに大きく依存しているため、トレーニング中に高い計算コストがかかり、リアルタイム推論へのデプロイが制限される。
本稿では,ロボットデータを事前学習することなく高い性能を維持しつつ,計算を削減し,デプロイメント効率を向上させる軽量VLAモデルであるEvo-1を提案する。
論文 参考訳(メタデータ) (2025-11-06T17:07:49Z) - SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics [37.82471658370026]
視覚言語モデル(VLM)は、豊富な視覚的および言語的知識を符号化した大規模マルチモーダルデータセットで事前訓練された。
SmolVLAは、トレーニングと推論の両方のコストを大幅に削減する、小さく、効率的で、コミュニティ主導のVLAである。
論文 参考訳(メタデータ) (2025-06-02T16:30:19Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。