論文の概要: HyperVLA: Efficient Inference in Vision-Language-Action Models via Hypernetworks
- arxiv url: http://arxiv.org/abs/2510.04898v1
- Date: Mon, 06 Oct 2025 15:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.930501
- Title: HyperVLA: Efficient Inference in Vision-Language-Action Models via Hypernetworks
- Title(参考訳): HyperVLA: Hypernetworksによるビジョンランゲージ・アクションモデルにおける効率的な推論
- Authors: Zheng Xiong, Kang Li, Zilin Wang, Matthew Jackson, Jakob Foerster, Shimon Whiteson,
- Abstract要約: VLA(Vision-Language-Action)モデルは、汎用的なロボットポリシーを学ぶための有望なアプローチとして登場した。
HyperVLAは、推論中に小さなタスク固有のポリシーのみを活性化する、新しいハイパーネットワーク(HN)ベースのアーキテクチャを使用している。
HyperVLAはゼロショット一般化と少数ショット適応の両方において、同様のあるいはそれ以上の成功率を達成する。
- 参考スコア(独自算出の注目度): 28.849312355730405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Built upon language and vision foundation models with strong generalization ability and trained on large-scale robotic data, Vision-Language-Action (VLA) models have recently emerged as a promising approach to learning generalist robotic policies. However, a key drawback of existing VLAs is their extremely high inference costs. In this paper, we propose HyperVLA to address this problem. Unlike existing monolithic VLAs that activate the whole model during both training and inference, HyperVLA uses a novel hypernetwork (HN)-based architecture that activates only a small task-specific policy during inference, while still retaining the high model capacity needed to accommodate diverse multi-task behaviors during training. Successfully training an HN-based VLA is nontrivial so HyperVLA contains several key algorithm design features that improve its performance, including properly utilizing the prior knowledge from existing vision foundation models, HN normalization, and an action generation strategy. Compared to monolithic VLAs, HyperVLA achieves a similar or even higher success rate for both zero-shot generalization and few-shot adaptation, while significantly reducing inference costs. Compared to OpenVLA, a state-of-the-art VLA model, HyperVLA reduces the number of activated parameters at test time by $90\times$, and accelerates inference speed by $120\times$. Code is publicly available at https://github.com/MasterXiong/HyperVLA
- Abstract(参考訳): 強力な一般化能力を持つ言語とビジョン基盤モデルに基づいて構築され、大規模なロボットデータに基づいて訓練されたVision-Language-Action(VLA)モデルは、最近、汎用的なロボットポリシーを学ぶための有望なアプローチとして登場した。
しかしながら、既存のVLAの重要な欠点は、非常に高い推論コストである。
本稿では,この問題に対処するためのHyperVLAを提案する。
トレーニングと推論の両方でモデル全体を活性化する既存のモノリシックVLAとは異なり、HyperVLAは、トレーニング中に多様なマルチタスク動作に対応するために必要な高いモデル容量を維持しながら、推論中に小さなタスク固有のポリシーのみを活性化する、新しいハイパーネットワーク(HN)ベースのアーキテクチャを使用する。
HNベースのVLAのトレーニングは簡単ではないため、HyperVLAには、既存のビジョン基盤モデルからの事前知識の適切な活用、HN正規化、アクション生成戦略を含む、パフォーマンスを改善するいくつかの重要なアルゴリズム設計機能が含まれている。
モノリシックなVLAと比較して、HyperVLAはゼロショットの一般化と少数ショットの適応の両方において、同様のあるいはそれ以上の成功率を達成する一方で、推論コストを大幅に削減する。
最先端のVLAモデルであるOpenVLAと比較して、HyperVLAはテスト時のアクティベートパラメータの数を90\times$に削減し、推論速度を120\times$に加速する。
コードはhttps://github.com/MasterXiong/HyperVLAで公開されている。
関連論文リスト
- Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics [37.82471658370026]
視覚言語モデル(VLM)は、豊富な視覚的および言語的知識を符号化した大規模マルチモーダルデータセットで事前訓練された。
SmolVLAは、トレーニングと推論の両方のコストを大幅に削減する、小さく、効率的で、コミュニティ主導のVLAである。
論文 参考訳(メタデータ) (2025-06-02T16:30:19Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。