論文の概要: Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment
- arxiv url: http://arxiv.org/abs/2511.04555v1
- Date: Thu, 06 Nov 2025 17:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.521811
- Title: Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment
- Title(参考訳): Evo-1:保存されたセマンティックアライメントを持つ軽量ビジョンランゲージ・アクションモデル
- Authors: Tao Lin, Yilei Zhong, Yuxin Du, Jingjing Zhang, Jiting Liu, Yinxinyu Chen, Encheng Gu, Ziyan Liu, Hongyi Cai, Yanwen Zou, Lixing Zou, Zhaoye Zhou, Gen Li, Bo Zhao,
- Abstract要約: VLA(Vision-Language-Action)モデルは、知覚、言語、制御を統一し、ロボットがマルチモーダル理解を通じて多様なタスクを実行できる強力なフレームワークとして登場した。
現行のVLAモデルは一般に大量のパラメータを含んでおり、大規模なロボットデータの事前トレーニングに大きく依存しているため、トレーニング中に高い計算コストがかかり、リアルタイム推論へのデプロイが制限される。
本稿では,ロボットデータを事前学習することなく高い性能を維持しつつ,計算を削減し,デプロイメント効率を向上させる軽量VLAモデルであるEvo-1を提案する。
- 参考スコア(独自算出の注目度): 13.582337741042773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as a powerful framework that unifies perception, language, and control, enabling robots to perform diverse tasks through multimodal understanding. However, current VLA models typically contain massive parameters and rely heavily on large-scale robot data pretraining, leading to high computational costs during training, as well as limited deployability for real-time inference. Moreover, most training paradigms often degrade the perceptual representations of the vision-language backbone, resulting in overfitting and poor generalization to downstream tasks. In this work, we present Evo-1, a lightweight VLA model that reduces computation and improves deployment efficiency, while maintaining strong performance without pretraining on robot data. Evo-1 builds on a native multimodal Vision-Language model (VLM), incorporating a novel cross-modulated diffusion transformer along with an optimized integration module, together forming an effective architecture. We further introduce a two-stage training paradigm that progressively aligns action with perception, preserving the representations of the VLM. Notably, with only 0.77 billion parameters, Evo-1 achieves state-of-the-art results on the Meta-World and RoboTwin suite, surpassing the previous best models by 12.4% and 6.9%, respectively, and also attains a competitive result of 94.8% on LIBERO. In real-world evaluations, Evo-1 attains a 78% success rate with high inference frequency and low memory overhead, outperforming all baseline methods. We release code, data, and model weights to facilitate future research on lightweight and efficient VLA models.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、知覚、言語、制御を統一し、ロボットがマルチモーダル理解を通じて多様なタスクを実行できる強力なフレームワークとして登場した。
しかしながら、現在のVLAモデルは一般に大量のパラメータを含んでおり、大規模なロボットデータの事前トレーニングに大きく依存しており、トレーニング中に高い計算コストがかかり、リアルタイム推論のデプロイ性が制限される。
さらに、ほとんどの訓練パラダイムは視覚言語バックボーンの知覚的表現を劣化させることが多く、結果として下流タスクへの過度な適合と一般化が不足する。
本研究では,ロボットデータを事前学習することなく高い性能を維持しつつ,計算を削減し,デプロイメント効率を向上させる軽量VLAモデルであるEvo-1を提案する。
Evo-1は、ネイティブなマルチモーダルビジョンランゲージモデル(VLM)上に構築され、最適化された統合モジュールとともに、新しいクロス変調拡散トランスフォーマーを組み込んで、効果的なアーキテクチャを形成する。
さらに、VLMの表現を保ちながら、行動と知覚を段階的に整合させる2段階の訓練パラダイムを導入する。
注目すべきは、わずか0.77億のパラメータで、Evo-1はMeta-WorldとRoboTwinスイートで最先端の結果を達成し、それぞれ12.4%、そして6.9%を上回り、LIBEROでは94.8%の競争結果を得たことである。
実世界の評価では、Evo-1は高い推論周波数と低いメモリオーバーヘッドで78%の成功率を獲得し、全てのベースライン法より優れている。
我々は、軽量で効率的なVLAモデルの研究を促進するために、コード、データ、モデルウェイトをリリースします。
関連論文リスト
- EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics [37.82471658370026]
視覚言語モデル(VLM)は、豊富な視覚的および言語的知識を符号化した大規模マルチモーダルデータセットで事前訓練された。
SmolVLAは、トレーニングと推論の両方のコストを大幅に削減する、小さく、効率的で、コミュニティ主導のVLAである。
論文 参考訳(メタデータ) (2025-06-02T16:30:19Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。