論文の概要: ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2602.17951v1
- Date: Fri, 20 Feb 2026 03:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.211392
- Title: ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models
- Title(参考訳): ROCKET:空間認識型視覚・言語・行動モデルのための残差指向型多層アライメント
- Authors: Guoheng Sun, Tingting Du, Kaixi Feng, Chenxiang Luo, Xingguo Ding, Zheyu Shen, Ziyao Wang, Yexiao He, Ang Li,
- Abstract要約: VLA(Vision-Language-Action)モデルは命令追従ロボット操作を可能にするが、通常は2Dデータで事前訓練され、3D空間理解が欠如している。
本稿では,残差指向型多層配向フレームワークROCKETを紹介する。
ROCKETは共有プロジェクタを使用して、VLAバックボーンの複数のレイヤと強力な3Dビジョン基盤モデルの複数のレイヤをアライメントする。
- 参考スコア(独自算出の注目度): 12.221605970492645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models enable instruction-following robotic manipulation, but they are typically pretrained on 2D data and lack 3D spatial understanding. An effective approach is representation alignment, where a strong vision foundation model is used to guide a 2D VLA model. However, existing methods usually apply supervision at only a single layer, failing to fully exploit the rich information distributed across depth; meanwhile, naïve multi-layer alignment can cause gradient interference. We introduce ROCKET, a residual-oriented multi-layer representation alignment framework that formulates multi-layer alignment as aligning one residual stream to another. Concretely, ROCKET employs a shared projector to align multiple layers of the VLA backbone with multiple layers of a powerful 3D vision foundation model via a layer-invariant mapping, which reduces gradient conflicts. We provide both theoretical justification and empirical analyses showing that a shared projector is sufficient and outperforms prior designs, and further propose a Matryoshka-style sparse activation scheme for the shared projector to balance multiple alignment losses. Our experiments show that, combined with a training-free layer selection strategy, ROCKET requires only about 4% of the compute budget while achieving 98.5% state-of-the-art success rate on LIBERO. We further demonstrate the superior performance of ROCKET across LIBERO-Plus and RoboTwin, as well as multiple VLA models. The code and model weights can be found at https://github.com/CASE-Lab-UMD/ROCKET-VLA.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは命令追従ロボット操作を可能にするが、通常は2Dデータで事前訓練され、3D空間理解が欠如している。
効果的なアプローチは表現アライメントであり、強力な視覚基盤モデルを使用して2次元VLAモデルを導出する。
しかし、既存の手法は通常、単一の層のみに監督を適用し、奥行きに分散した豊富な情報を十分に活用することができず、一方、ナビブ多層アライメントは勾配干渉を引き起こす可能性がある。
本稿では,残差ストリームを他のストリームにアライメントするように多層アライメントを定式化する,残差指向多層配向フレームワークROCKETを紹介する。
具体的には、ROCKETは共有プロジェクタを使用して、VLAバックボーンの複数のレイヤと強力な3Dビジョン基盤モデルの複数のレイヤを階層不変のマッピングによって整列し、勾配の衝突を低減する。
我々は,共有プロジェクタが十分であることを示す理論的正当化と実証的解析の両方を提供し,また,共有プロジェクタが複数のアライメント損失のバランスをとるために,共有プロジェクタのマトリリシカ式スパースアクティベーションスキームを提案する。
実験の結果、ROCKETはトレーニング不要層選択戦略と組み合わせて、計算予算の約4%しか必要とせず、98.5%がLIBEROで成功していることがわかった。
さらに、LIBERO-Plus と RoboTwin をまたいだ ROCKET の優れた性能と、複数の VLA モデルについて述べる。
コードとモデルの重み付けはhttps://github.com/CASE-Lab-UMD/ROCKET-VLAで確認できる。
関連論文リスト
- DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing [67.77471070868852]
DeepGen 1.0は、画像生成と編集のための軽量な5B統一モデルである。
わずか5000万のサンプルでトレーニングされており、WISEでは80BのHunyuan Imageを28%、UniREditBenchでは27BのQwen-Image-Editを37%上回っている。
トレーニングコード、ウェイト、データセットをオープンソース化することで、統合マルチモーダルリサーチを民主化する、効率的で高性能な代替手段を提供します。
論文 参考訳(メタデータ) (2026-02-12T17:44:24Z) - D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation [66.7166217399105]
エージェントは、エンドツーエンドモデルには解釈可能性や明示的な3D推論が欠けているという、重要なジレンマに直面します。
1) 計画,グラウンド,ナビゲーション,質問応答を単一の3D-VLMパイプラインとCoTパイプラインで統一する動的3Dチェーン(3D CoT) ; 2) フラグメンテッド・スーパービジョン(SLFS)戦略からのシナジスティック学習 マスク付き自己回帰損失を用いて,大規模かつ部分的に注釈付けされたハイブリッドデータから学習する。
論文 参考訳(メタデータ) (2025-12-14T09:53:15Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - SPFSplatV2: Efficient Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views [18.814209805277503]
スパース多視点画像から3次元ガウススプラッティングを行うための効率的なフィードフォワードフレームワークであるSPFSplatV2について述べる。
ドメイン内およびドメイン外の新規ビュー合成において、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-21T21:37:56Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - PointVLA: Injecting the 3D World into Vision-Language-Action Models [10.758939578236582]
我々は,ポイントクラウド入力を必要とせずに,事前学習された視覚言語行動モデルを強化するフレームワークであるPointVLAを提案する。
本手法は,バニラ動作の専門家を凍結し,軽量なモジュールブロックを介して3次元特徴を注入する。
PointVLAは、シミュレーションと現実世界の両方のロボットタスクにおいて、最先端の2D模倣学習方法より優れています。
論文 参考訳(メタデータ) (2025-03-10T16:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。