論文の概要: A Survey on Efficient Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2510.24795v1
- Date: Mon, 27 Oct 2025 17:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.498844
- Title: A Survey on Efficient Vision-Language-Action Models
- Title(参考訳): 効率的な視覚・言語・行動モデルの検討
- Authors: Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen,
- Abstract要約: VLA(Vision-Language-Action Model)は、物理世界の相互作用によってデジタル知識を橋渡しすることを目的とした、インテリジェンスにおける重要なフロンティアである。
これらの課題に緊急に対応する必要性から、この調査は、効率的なビジョン・ランゲージ・アクションモデルに関する最初の包括的なレビューを提示する。
- 参考スコア(独自算出の注目度): 153.11669266922993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action models (VLAs) represent a significant frontier in embodied intelligence, aiming to bridge digital knowledge with physical-world interaction. While these models have demonstrated remarkable generalist capabilities, their deployment is severely hampered by the substantial computational and data requirements inherent to their underlying large-scale foundation models. Motivated by the urgent need to address these challenges, this survey presents the first comprehensive review of Efficient Vision-Language-Action models (Efficient VLAs) across the entire data-model-training process. Specifically, we introduce a unified taxonomy to systematically organize the disparate efforts in this domain, categorizing current techniques into three core pillars: (1) Efficient Model Design, focusing on efficient architectures and model compression; (2) Efficient Training, which reduces computational burdens during model learning; and (3) Efficient Data Collection, which addresses the bottlenecks in acquiring and utilizing robotic data. Through a critical review of state-of-the-art methods within this framework, this survey not only establishes a foundational reference for the community but also summarizes representative applications, delineates key challenges, and charts a roadmap for future research. We maintain a continuously updated project page to track our latest developments: https://evla-survey.github.io/
- Abstract(参考訳): VLA(Vision-Language-Action Model)は、物理世界の相互作用によってデジタル知識を橋渡しすることを目的とした、インテリジェンスにおける重要なフロンティアである。
これらのモデルは、顕著な一般論的な能力を示しているが、それらの展開は、その基盤となる大規模基盤モデルに固有の、相当な計算とデータ要求によって著しく妨げられている。
これらの課題に緊急に対応する必要性から、この調査は、データ-モデル-トレーニングプロセス全体にわたって、効率的なビジョン-ランゲージ-アクションモデル(効率的なVLA)の包括的なレビューを初めて提示する。
具体的には,(1)効率的なアーキテクチャとモデル圧縮に着目した効率的なモデル設計,(2)モデル学習時の計算負担を軽減する効率的なトレーニング,(3)ロボットデータの獲得と活用のボトルネックに対処する効率的なデータ収集,の3つの柱に,現行の手法を体系的に分類する。
このフレームワークにおける最先端の手法の批判的なレビューを通じて、この調査はコミュニティの基礎的な参照を確立するだけでなく、代表的アプリケーションもまとめ、主要な課題を概説し、将来の研究のロードマップをグラフ化している。
私たちは、最新の開発を追跡するために、継続的に更新されたプロジェクトページを維持しています。
関連論文リスト
- DINOv3 [62.31809406012177]
自己教師型学習は、手動データアノテーションの必要性を排除し、巨大なデータセットやより大きなアーキテクチャにモデルを集中的にスケールできるようにするという約束を守ります。
この技術レポートでは、シンプルだが効果的な戦略を活用することで、このビジョンを実現するための大きなマイルストーンであるDINOv3を紹介します。
DINOv3は高品位な高精細な特徴を生み出し、様々な視覚タスクにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-08-13T18:00:55Z) - Transfer Learning with Foundational Models for Time Series Forecasting using Low-Rank Adaptations [0.0]
本研究は,時系列予測タスクに対するFM,Large Language Modelsの直接的な適応手法であるLLIAMを提案する。
LLIAMとRecurrent Neural NetworksやTemporal Convolutional Networks、LLMベースのTimeLLMなど、さまざまな最先端DLアルゴリズムのパフォーマンスの比較を行った。
本研究の結果はLLIAMの有効性を実証し, この単純かつ汎用的なアプローチは, 複雑な修正を加える必要がなくなることなく, 有能な結果が得られることを示した。
論文 参考訳(メタデータ) (2024-10-15T12:14:01Z) - POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。
我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。
視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文 参考訳(メタデータ) (2024-09-07T13:41:37Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。