論文の概要: BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation
- arxiv url: http://arxiv.org/abs/2506.07530v1
- Date: Mon, 09 Jun 2025 08:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.859772
- Title: BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation
- Title(参考訳): BitVLA:ロボット操作のための1ビットビジョンランゲージ・アクションモデル
- Authors: Hongyu Wang, Chuyan Xiong, Ruiping Wang, Xilin Chen,
- Abstract要約: ロボット操作のための最初の1ビットVLAモデルであるBitVLAを紹介する。
本稿では,全精度エンコーダを1.58ビットの重量に圧縮する蒸留対応トレーニング戦略を提案する。
大規模ロボティクスの事前訓練がないにもかかわらず、BitVLAは最先端のOpenVLA-OFTに匹敵する性能を達成している。
- 参考スコア(独自算出の注目度): 31.831697012859085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have shown impressive capabilities across a wide range of robotics manipulation tasks. However, their growing model size poses significant challenges for deployment on resource-constrained robotic systems. While 1-bit pretraining has proven effective for enhancing the inference efficiency of large language models with minimal performance loss, its application to VLA models remains underexplored. In this work, we present BitVLA, the first 1-bit VLA model for robotics manipulation, in which every parameter is ternary, i.e., {-1, 0, 1}. To further reduce the memory footprint of the vision encoder, we propose the distillation-aware training strategy that compresses the full-precision encoder to 1.58-bit weights. During this process, a full-precision encoder serves as a teacher model to better align latent representations. Despite the lack of large-scale robotics pretraining, BitVLA achieves performance comparable to the state-of-the-art model OpenVLA-OFT with 4-bit post-training quantization on the LIBERO benchmark, while consuming only 29.8% of the memory. These results highlight BitVLA's promise for deployment on memory-constrained edge devices. We release the code and model weights in https://github.com/ustcwhy/BitVLA.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、幅広いロボティクス操作タスクにおいて印象的な能力を示している。
しかし、それらのモデルサイズが大きくなると、資源に制約のあるロボットシステムへの展開に重大な課題が生じる。
1ビット事前学習は、性能損失を最小限に抑えた大規模言語モデルの推論効率を向上させるのに有効であることが証明されているが、VLAモデルへの適用は未定である。
本稿では,ロボット操作のための最初の1ビットVLAモデルであるBitVLAについて述べる。
視覚エンコーダのメモリフットプリントをさらに削減するために,全精度エンコーダを1.58ビットの重量に圧縮する蒸留対応トレーニング戦略を提案する。
この過程において、完全精度エンコーダは教師モデルとして機能し、潜在表現をよりよく整列させる。
大規模ロボティクスの事前トレーニングが不足しているにもかかわらず、BitVLAは最先端のOpenVLA-OFTに匹敵する性能を達成し、LIBEROベンチマークでは4ビット後の量子化を実現し、メモリの29.8%しか消費していない。
これらの結果は、メモリ制限されたエッジデバイスへのデプロイメントに対するBitVLAの約束を浮き彫りにしている。
コードとモデルの重み付けはhttps://github.com/ustcwhy/BitVLA.orgで公開しています。
関連論文リスト
- Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。