論文の概要: SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead
- arxiv url: http://arxiv.org/abs/2512.00903v1
- Date: Sun, 30 Nov 2025 14:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.488447
- Title: SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead
- Title(参考訳): SwiftVLA: 最小オーバーヘッドでの軽量VLAモデルの時空間ダイナミクスのアンロック
- Authors: Chaojun Ni, Cheng Chen, Xiaofeng Wang, Zheng Zhu, Wenzhao Zheng, Boyuan Wang, Tianrun Chen, Guosheng Zhao, Haoyun Li, Zhehao Dong, Qiang Zhang, Yun Ye, Yang Wang, Guan Huang, Wenjun Mei,
- Abstract要約: 設計効率を保ちつつ、4次元理解でコンパクトなモデルを強化するアーキテクチャであるSwiftVLAを提案する。
提案手法は,2次元画像から4次元特徴を抽出する時間キャッシュを備えた,事前訓練された4次元視覚幾何学変換器を備える。
実環境とシミュレートされた環境での実験では、SwiftVLAは軽量のベースラインよりも優れており、ライバルのVLAは最大7倍も大きい。
- 参考スコア(独自算出の注目度): 56.74139420555097
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models built on pretrained Vision-Language Models (VLMs) show strong potential but are limited in practicality due to their large parameter counts. To mitigate this issue, using a lightweight VLM has been explored, but it compromises spatiotemporal reasoning. Although some methods suggest that incorporating additional 3D inputs can help, they usually rely on large VLMs to fuse 3D and 2D inputs and still lack temporal understanding. Therefore, we propose SwiftVLA, an architecture that enhances a compact model with 4D understanding while preserving design efficiency. Specifically, our approach features a pretrained 4D visual geometry transformer with a temporal cache that extracts 4D features from 2D images. Then, to enhance the VLM's ability to exploit both 2D images and 4D features, we introduce Fusion Tokens, a set of learnable tokens trained with a future prediction objective to generate unified representations for action generation. Finally, we introduce a mask-and-reconstruct strategy that masks 4D inputs to the VLM and trains the VLA to reconstruct them, enabling the VLM to learn effective 4D representations and allowing the 4D branch to be dropped at inference with minimal performance loss. Experiments in real and simulated environments show that SwiftVLA outperforms lightweight baselines and rivals VLAs up to 7 times larger, achieving comparable performance on edge devices while being 18 times faster and reducing memory footprint by 12 times.
- Abstract(参考訳): VLM(Vision-Language-Action)モデル(VLA)は、トレーニング済みのVLM(Vision-Language Models)上に構築されている。
この問題を軽減するために、軽量なVLMの使用が検討されているが、時空間的推論を損なう。
追加の3Dインプットを組み込むことは役立つと示唆する手法もあるが、通常は大きなVLMを使って3Dと2Dインプットを融合し、時間的理解を欠いている。
そこで我々は,設計効率を保ちつつ,4次元理解によるコンパクトなモデルを強化するアーキテクチャであるSwiftVLAを提案する。
具体的には,2次元画像から4次元特徴を抽出する時間キャッシュを備えた,事前訓練された4次元視覚幾何学変換器を特徴とする。
次に、VLMが2次元画像と4次元特徴の両方を利用する能力を高めるために、将来の予測目標で訓練された学習可能なトークンセットであるFusion Tokensを導入し、アクション生成のための統一表現を生成する。
最後に,VLM に 4D 入力をマスクして VLA に再構成させ,有効な 4D 表現を学習し,性能損失を最小限に抑えながら 4D 分岐を落とせるようにするためのマスク・アンド・リコンストラクション戦略を提案する。
実環境とシミュレートされた環境での実験では、SwiftVLAは軽量なベースラインよりも優れており、ライバルのVLAは最大7倍も大きく、エッジデバイスで同等のパフォーマンスを実現し、18倍高速で、メモリフットプリントを12倍削減している。
関連論文リスト
- VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation [54.81449795163812]
時間的コヒーレントなロボット操作のための4次元認識型汎用VLAモデルを開発した。
視覚的特徴を抽出し, 4次元埋め込みのための3次元位置への1次元時間埋め込みを行い, クロスアテンション機構による統一視覚表現に融合する。
この枠組みの中で、デザインされた視覚アクションは、空間的に滑らかで時間的に一貫したロボット操作を共同で行う。
論文 参考訳(メタデータ) (2025-11-21T12:26:30Z) - Uni4D-LLM: A Unified SpatioTemporal-Aware VLM for 4D Understanding and Generation [61.60600246983274]
既存の3Dおよび4Dアプローチは、通常、シーン幾何学を意味的理解とコンテンツ生成のための拡散モデルのための自己回帰モデルに組み込む。
我々は4次元シーン理解と生成のための時間的認識を備えた最初の統合VLMフレームワークであるUni4D-LLMを提案する。
論文 参考訳(メタデータ) (2025-09-28T12:06:54Z) - LEO-VL: Efficient Scene Representation for Scalable 3D Vision-Language Learning [63.19329995235114]
主なボトルネックは、現在のシーン表現がパフォーマンスと効率のバランスをとるのに苦労していることです。
本稿では,トークンのオーバーヘッドを大幅に低減し,認識能力の強い,効率的なシーン表現であるコンデンス機能グリッド(CFG)を提案する。
実世界の4つの屋内ドメインと、キャプションや対話といった5つのタスクにまたがる700k3D-VLデータに基づいて訓練された3D VLMであるLEO-VLを紹介する。
論文 参考訳(メタデータ) (2025-06-11T16:56:34Z) - PointVLA: Injecting the 3D World into Vision-Language-Action Models [10.758939578236582]
我々は,ポイントクラウド入力を必要とせずに,事前学習された視覚言語行動モデルを強化するフレームワークであるPointVLAを提案する。
本手法は,バニラ動作の専門家を凍結し,軽量なモジュールブロックを介して3次元特徴を注入する。
PointVLAは、シミュレーションと現実世界の両方のロボットタスクにおいて、最先端の2D模倣学習方法より優れています。
論文 参考訳(メタデータ) (2025-03-10T16:32:41Z) - GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models [39.488763757826426]
2次元視覚言語モデル(VLM)は、画像テキスト理解タスクにおいて大きな進歩を遂げている。
近年の進歩は、3Dポイントクラウドとマルチビューイメージを入力として活用し、有望な結果をもたらしている。
人間の知覚にインスパイアされた視覚ベースのソリューションを提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:59Z) - VG4D: Vision-Language Model Goes 4D Video Recognition [34.98194339741201]
Webスケールのテキストイメージデータセットで事前トレーニングされた視覚言語モデル(VLM)は、きめ細かい視覚概念を学習することができる。
視覚テキスト事前学習モデルから4DポイントクラウドネットワークへVLMの知識を伝達するためのビジョンランゲージモデル Goes 4D (VG4D) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T17:54:49Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。