論文の概要: BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model
- arxiv url: http://arxiv.org/abs/2602.20566v1
- Date: Tue, 24 Feb 2026 05:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.616881
- Title: BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model
- Title(参考訳): BFA++:多視点視覚言語アクションモデルのための階層的ベスト機能対応トークンPrune
- Authors: Haosheng Li, Weixin Mao, Zihan Lan, Hongwei Xiong, Hongan Wang, Chenyang Si, Ziwei Liu, Xiaoming Deng, Hua Chen,
- Abstract要約: VLA(Vision-Language-Action)モデルは、VLM(Large Vision Language Models)を利用して、命令と視覚入力を共同で解釈することで、大きなブレークスルーを達成した。
視覚トークンの大幅な増加、特にマルチビュー入力は、リアルタイムロボット操作に深刻な課題をもたらす。
VLAモデルに特化して設計された動的トークンプルーニングフレームワークであるBFA++を提案する。
- 参考スコア(独自算出の注目度): 44.72361174037017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have achieved significant breakthroughs by leveraging Large Vision Language Models (VLMs) to jointly interpret instructions and visual inputs. However, the substantial increase in visual tokens, particularly from multi-view inputs, poses serious challenges to real-time robotic manipulation. Existing acceleration techniques for VLMs, such as token pruning, often result in degraded performance when directly applied to VLA models, as they overlook the relationships between different views and fail to account for the dynamic and task-specific characteristics of robotic operation. To address this, we propose BFA++, a dynamic token pruning framework designed specifically for VLA models. BFA++ introduces a hierarchical pruning strategy guided by two-level importance predictors: an intra-view predictor highlights task-relevant regions within each image to suppress spatial noise, while an inter-view predictor identifies critical camera views throughout different manipulation phases to reduce cross-view redundancy. This design enables efficient token selection while preserving essential visual cues, resulting in improved computational efficiency and higher manipulation success rates. Evaluations on the RoboTwin benchmark and real-world robotic tasks demonstrate that BFA++ consistently outperforms existing methods. BFA++ improves the success rate by about 10% on both the π0 and RDT models, achieving speedup of 1.8X and 1.5X, respectively. Our results highlight that context-sensitive and task-aware token pruning serves as a more effective strategy than full visual processing, enabling faster inference and improved manipulation accuracy in real-world robotic systems.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、VLM(Large Vision Language Models)を利用して、命令と視覚入力を共同で解釈することで、大きなブレークスルーを達成した。
しかし、特にマルチビュー入力による視覚トークンの大幅な増加は、リアルタイムなロボット操作に深刻な課題をもたらす。
トークンプルーニングなどの既存のVLMの加速技術は、VLAモデルに直接適用した場合、異なるビュー間の関係を見落とし、ロボット操作の動的およびタスク固有の特性を考慮できないため、性能が劣化することが多い。
そこで本研究では,VLAモデルに特化して設計された動的トークン解析フレームワークであるBFA++を提案する。
ビュー内予測器は、各画像内のタスク関連領域を強調して空間ノイズを抑制する一方、ビュー間予測器は、異なる操作フェーズを通して重要なカメラビューを識別し、ビュー間の冗長性を減少させる。
この設計により、重要な視覚的手がかりを保ちながら効率的なトークン選択が可能となり、計算効率が向上し、操作成功率が向上する。
RoboTwinベンチマークと実世界のロボットタスクの評価は、BFA++が既存のメソッドを一貫して上回っていることを示している。
BFA++は、π0モデルとRDTモデルの両方で成功率を約10%向上させ、それぞれ1.8Xと1.5Xのスピードアップを達成する。
この結果から,実世界のロボットシステムにおいて,コンテキスト依存型およびタスク認識型トークンプルーニングは完全な視覚処理よりも効果的な手法であり,推論の高速化と操作精度の向上を実現していることがわかった。
関連論文リスト
- DTP: A Simple yet Effective Distracting Token Pruning Framework for Vision-Language Action Models [25.91822750707556]
VLA(Vision-Language Action)モデルは、ロボット操作において顕著な進歩を見せている。
VLAモデルはタスク関連領域のイメージトークンに過度に参加する可能性がある。
この振る舞いは、各ステップにおける望ましいアクショントークンの生成からモデルを邪魔し、タスクの成功率に影響を与える可能性がある。
論文 参考訳(メタデータ) (2026-01-22T16:02:56Z) - FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference [17.901428758295307]
VLA(Vision-Language-Action)モデルでは、AIの具現化に大きな期待が寄せられているが、計算コストによってリアルタイムのデプロイメントが制限されている。
本稿では,VLAモデルのデュアルシステム特性に適合する汎用的なプラグ・アンド・プレイ型VLA固有のトークンプルー法であるVLA-Prunerを提案する。
VLA-Prunerは、複数のVLAアーキテクチャと多様なロボットタスクにわたる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-20T15:16:09Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation [27.007611140797852]
既存の手法では、VLAモデル内の視覚的冗長性を低減し、推論速度を最適化する。
textbfAction-aware textbfDynamic textbfPruning (textbfADP)を提案する。
論文 参考訳(メタデータ) (2025-09-26T09:13:02Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。