論文の概要: 2D or 3D: Who Governs Salience in VLA Models? -- Tri-Stage Token Pruning Framework with Modality Salience Awareness
- arxiv url: http://arxiv.org/abs/2604.09244v1
- Date: Fri, 10 Apr 2026 11:58:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.844748
- Title: 2D or 3D: Who Governs Salience in VLA Models? -- Tri-Stage Token Pruning Framework with Modality Salience Awareness
- Title(参考訳): 2Dまたは3D: 誰がVLAモデルにサリエンスを負うか? -- モダリティサリエンスを意識したトリステージトーケンプルーニングフレームワーク
- Authors: Zihao Zheng, Sicheng Tian, Zhihao Mao, Lingyue Zhang, Chenyue Li, Ziyun Zhang, Hong Gao, Yuchen Huang, Yutong Xu, Guojie Luo, Xiang Chen,
- Abstract要約: VLA(Vision-Language-Action)モデルがインボディードインテリジェンス(英語版)の主流として登場した。
最近のVLAモデルは、2Dのみから2D+3Dパラダイムへと入力モダリティを拡大し、マルチ視覚モードVLA(MVLA)モデルを形成している。
本稿では,MVLAモデルに対して,最適な2D/3Dトークン選択と効率的なプルーニングを実現するための3段階トークンプルーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.442852446584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as the mainstream of embodied intelligence. Recent VLA models have expanded their input modalities from 2D-only to 2D+3D paradigms, forming multi-visual-modal VLA (MVLA) models. Despite achieving improved spatial perception, MVLA faces a greater acceleration demand due to the increased number of input tokens caused by modal expansion. Token pruning is an effective optimization methods tailored to MVLA models. However, existing token pruning schemes are designed for 2D-only VLA models, ignoring 2D/3D modality salience differences. In this paper, we follow the application process of multi-modal data in MVLA models and develop a tri-stage analysis to capture the discrepancy and dynamics of 2D/3D modality salience. Based on these, we propose a corresponding tri-stage token pruning framework for MVLA models to achieve optimal 2D/3D token selection and efficient pruning. Experiments show that our framework achieves up to a 2.55x inference speedup with minimal accuracy loss, while only costing 5.8% overhead. Our Code is coming soon.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルがインボディードインテリジェンス(英語版)の主流として登場した。
最近のVLAモデルは、2Dのみから2D+3Dパラダイムへと入力モダリティを拡大し、マルチ視覚モードVLA(MVLA)モデルを形成している。
空間知覚の向上にもかかわらず、MVLAは、モーダル展開による入力トークンの増加により、より大きな加速要求に直面している。
トケンプルーニングはMVLAモデルに適した効果的な最適化手法である。
しかし、既存のトークンプルーニングスキームは、2D/3Dモダリティの相違を無視して、2DのみのVLAモデルのために設計されている。
本稿では,MVLAモデルにおけるマルチモーダルデータの応用プロセスに従い,2D/3Dモダリティ・サリエンスの相違点とダイナミクスを捉える3段階解析法を開発した。
そこで本研究では,MVLAモデルに対して,最適な2D/3Dトークン選択と効率的なプルーニングを実現するための3段階トークンプルーニングフレームワークを提案する。
実験の結果、我々のフレームワークは最大で2.55倍の速度で精度を損なうことができ、オーバーヘッドは5.8%に過ぎなかった。
私たちのコードはもうすぐ来る。
関連論文リスト
- ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models [12.221605970492645]
VLA(Vision-Language-Action)モデルは命令追従ロボット操作を可能にするが、通常は2Dデータで事前訓練され、3D空間理解が欠如している。
本稿では,残差指向型多層配向フレームワークROCKETを紹介する。
ROCKETは共有プロジェクタを使用して、VLAバックボーンの複数のレイヤと強力な3Dビジョン基盤モデルの複数のレイヤをアライメントする。
論文 参考訳(メタデータ) (2026-02-20T03:06:22Z) - Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space [52.34072027212278]
埋め込みモデルは、セマンティック検索や検索強化生成のような現代のAIシステムの基本コンポーネントである。
大規模基盤モデルの最近の進歩は、埋め込みモデルの開発を著しく加速させてきた。
マルチモーダルdLLMを埋め込みモデルに変換するための最初の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-19T06:51:15Z) - UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - 3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow [69.94527569577295]
3次元の視覚と空間的推論は、長い間、我々の3次元の世界を正確に知覚するのに好ましいと認識されてきた。
高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。
我々は,既存の高密度活性化LDMをマルチモーダルデータ処理に有効であることが証明されたMix-of-experts(MoE)モデルに変換することを提案する。
論文 参考訳(メタデータ) (2025-01-28T04:31:19Z) - Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。