論文の概要: Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey
- arxiv url: http://arxiv.org/abs/2510.17111v3
- Date: Thu, 23 Oct 2025 15:06:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.939918
- Title: Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey
- Title(参考訳): 身体操作のための効率的な視覚・言語・行動モデル:システム的調査
- Authors: Weifan Guan, Qinghao Hu, Aosheng Li, Jian Cheng,
- Abstract要約: VLA(Vision-Language-Action)モデルは、自然言語の指示と視覚的な観察をロボットの行動にマッピングすることで、視覚言語モデルを拡張し、制御を具体化する。
これらの能力にもかかわらず、VLAシステムは膨大な計算とメモリ要求のために重大な課題に直面している。
- 参考スコア(独自算出の注目度): 13.43815806675263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models extend vision-language models to embodied control by mapping natural-language instructions and visual observations to robot actions. Despite their capabilities, VLA systems face significant challenges due to their massive computational and memory demands, which conflict with the constraints of edge platforms such as on-board mobile manipulators that require real-time performance. Addressing this tension has become a central focus of recent research. In light of the growing efforts toward more efficient and scalable VLA systems, this survey provides a systematic review of approaches for improving VLA efficiency, with an emphasis on reducing latency, memory footprint, and training and inference costs. We categorize existing solutions into four dimensions: model architecture, perception feature, action generation, and training/inference strategies, summarizing representative techniques within each category. Finally, we discuss future trends and open challenges, highlighting directions for advancing efficient embodied intelligence.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、自然言語の指示と視覚的な観察をロボットの行動にマッピングすることで、視覚言語モデルを拡張し、制御を具体化する。
それらの能力にもかかわらず、VLAシステムは、リアルタイムのパフォーマンスを必要とするモバイルマニピュレータのようなエッジプラットフォームの制約と矛盾する膨大な計算とメモリ要求のために、重大な課題に直面している。
この緊張に対処することが最近の研究の中心となっている。
より効率的でスケーラブルなVLAシステムへの取り組みの増加を踏まえて、この調査は、レイテンシ、メモリフットプリント、トレーニングと推論コストの削減に重点を置いた、VLA効率を改善するためのアプローチの体系的なレビューを提供する。
既存のソリューションを,モデルアーキテクチャ,知覚特徴,行動生成,トレーニング/推論戦略の4つの次元に分類し,各カテゴリの代表的なテクニックを要約する。
最後に、今後のトレンドとオープン課題について議論し、効率的なエンボディドインテリジェンスを推し進めるための方向性を明らかにする。
関連論文リスト
- Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.48672228625821]
Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。
Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。
提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2025-10-13T05:51:22Z) - Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies [66.83950068218033]
スケーリング法則は、モデルのパラメータとトレーニングデータによって学習のパフォーマンスが向上することを示している。
性能向上の可能性にもかかわらず、スケーリング法則を深層強化学習に統合することは、完全には実現されていない。
本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
論文 参考訳(メタデータ) (2025-08-05T08:03:12Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models [9.376810354990079]
VLA-OSは,様々なタスク計画パラダイムを備えた統一型VLAアーキテクチャシリーズである。
様々な対象カテゴリ(剛体・変形可能)、視覚的モーダル性(2D・3D)、環境(シミュレーション・実世界)、エンドエフェクター(グリッパー・デキスタスハンド)の総合的な実験スイートを設計する。
論文 参考訳(メタデータ) (2025-06-21T03:07:48Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems [13.670262880851537]
生成型大規模言語モデル(LLM)が最前線に立ち、データとのインタラクション方法に革命をもたらします。
しかし、これらのモデルをデプロイする際の計算強度とメモリ消費は、効率性の観点から大きな課題を呈している。
本研究は,機械学習システム(MLSys)研究の観点から,効率的なLCM提供手法の必要性について考察する。
論文 参考訳(メタデータ) (2023-12-23T11:57:53Z) - Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。
ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。
新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (2023-08-27T03:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。