論文の概要: Towards Accessible Physical AI: LoRA-Based Fine-Tuning of VLA Models for Real-World Robot Control
- arxiv url: http://arxiv.org/abs/2512.11921v1
- Date: Thu, 11 Dec 2025 16:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.024089
- Title: Towards Accessible Physical AI: LoRA-Based Fine-Tuning of VLA Models for Real-World Robot Control
- Title(参考訳): アクセシブルな物理AIに向けて:実世界ロボット制御のためのLORAを用いたVLAモデルの微調整
- Authors: Abdullah Yahya Abdullah Omaisan, Ibrahim Sheikh Mohamed,
- Abstract要約: 本稿では,VLAモデルを低コストなロボット操作システムに適用するための,効率的な微調整手法と実世界の展開分析について述べる。
本稿では,LoRA(Lo-Rank Adaptation)と量子化技術を用いた資源効率の高い微調整手法を提案する。
本手法は,事前学習したVLAモデルを,限られた実演データを持つ新しいロボット体に適応させる上で重要な課題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models have demonstrated remarkable capabilities in robotic manipulation,enabling robots to execute natural language commands through end-to-end learning from visual observations.However, deploying large-scale VLA models on affordable robotic platforms remains challenging due to computational constraints and the need for efficient adaptation to new robot embodiments. This paper presents an efficient fine-tuning methodology and real-world deployment analysis for adapting VLA models to low-cost robotic manipulation systems.We propose a resource-efficient fine-tuning strategy using Low-Rank Adaptation (LoRA) and quantization techniques that enable multi-billion parameter VLA models ( 3.1B parameters) to run on consumer-grade GPUs with 8GB VRAM. Our methodology addresses the critical challenge of adapting pre-trained VLA models to new robot embodiments with limited demonstration data, focusing on the trade-offs between frozen and unfrozen vision encoders. Through real-world deployment on the SO101 robotic arm for a button-pressing manipulation task, we demonstrate that our approach achieves effective manipulation performance while maintaining computational efficiency. We provide detailed analysis of deployment challenges, failure modes, and the relationship between training data quantity and real-world performance,trained on 200 demonstration episodes. Our results show that with proper fine-tuning methodology, VLA models can be successfully deployed on affordable robotic platforms,making advanced manipulation capabilities accessible beyond expensive research robots.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット操作において顕著な能力を示し、視覚的な観察からエンドツーエンドの学習を通じて自然言語コマンドを実行するロボットを誘導している。
本稿では、低コストなロボット操作システムにVLAモデルを適応させるための効率的な微調整手法と実世界の展開分析を行い、ローランド適応(LoRA)を用いた資源効率の良い微調整戦略と、マルチビリオンパラメータVLAモデル(3.1Bパラメータ)を8GB VRAMを搭載したコンシューマグレードGPU上で実行可能にする量子化技術を提案する。
本手法は,凍結した視覚エンコーダと凍結しない視覚エンコーダのトレードオフに焦点をあてて,限られた実演データを用いて,事前学習したVLAモデルを新しいロボット体に適応させるという重要な課題に対処する。
ボタン押下操作タスクのためのSO101ロボットアームの現実的な展開を通じて,本手法が計算効率を維持しつつ,効果的な操作性能を実現することを実証する。
本稿では,200回の実演エピソードにおいて,運用上の課題,障害モード,およびトレーニングデータ量と実世界のパフォーマンスとの関係を詳細に分析する。
この結果から,VLAモデルは適切な微調整手法により,安価なロボットプラットフォームに展開し,高価な研究ロボット以外の高度な操作機能を実現することが可能であることが示唆された。
関連論文リスト
- cVLA: Towards Efficient Camera-Space VLAs [26.781510474119845]
Vision-Language-Action(VLA)モデルは、複雑なロボット操作タスクに取り組むための魅力的なフレームワークを提供する。
2次元画像上での視覚言語モデルの競合性能を活用する新しいVLA手法を提案する。
我々のモデルは軌道方向の経路を予測し、トレーニングとロボットの実施の両方を効果的に行う。
論文 参考訳(メタデータ) (2025-07-02T22:56:41Z) - ROSA: Harnessing Robot States for Vision-Language and Action Alignment [24.426285156386715]
VLM(Vision-Language Models)は、エンドツーエンドのロボット制御において大きな進歩を遂げた。
本稿では,ロボットの状態推定を利用して視覚言語と行動空間のアライメントを改善する新しいトレーニングパラダイムROSAを提案する。
論文 参考訳(メタデータ) (2025-06-16T16:34:20Z) - VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。
自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。
VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文 参考訳(メタデータ) (2025-05-24T14:42:51Z) - FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。
FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文 参考訳(メタデータ) (2025-01-16T18:57:04Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。