論文の概要: Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation
- arxiv url: http://arxiv.org/abs/2509.22093v1
- Date: Fri, 26 Sep 2025 09:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.322988
- Title: Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation
- Title(参考訳): 効率的な視覚・言語・アクション操作のための行動認識動的プルーニング
- Authors: Xiaohuan Pei, Yuxing Chen, Siyu Xu, Yunke Wang, Yuheng Shi, Chang Xu,
- Abstract要約: 既存の手法では、VLAモデル内の視覚的冗長性を低減し、推論速度を最適化する。
textbfAction-aware textbfDynamic textbfPruning (textbfADP)を提案する。
- 参考スコア(独自算出の注目度): 27.007611140797852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic manipulation with Vision-Language-Action models requires efficient inference over long-horizon multi-modal context, where attention to dense visual tokens dominates computational cost. Existing methods optimize inference speed by reducing visual redundancy within VLA models, but they overlook the varying redundancy across robotic manipulation stages. We observe that the visual token redundancy is higher in coarse manipulation phase than in fine-grained operations, and is strongly correlated with the action dynamic. Motivated by this observation, we propose \textbf{A}ction-aware \textbf{D}ynamic \textbf{P}runing (\textbf{ADP}), a multi-modal pruning framework that integrates text-driven token selection with action-aware trajectory gating. Our method introduces a gating mechanism that conditions the pruning signal on recent action trajectories, using past motion windows to adaptively adjust token retention ratios in accordance with dynamics, thereby balancing computational efficiency and perceptual precision across different manipulation stages. Extensive experiments on the LIBERO suites and diverse real-world scenarios demonstrate that our method significantly reduces FLOPs and action inference latency (\textit{e.g.} $1.35 \times$ speed up on OpenVLA-OFT) while maintaining competitive success rates (\textit{e.g.} 25.8\% improvements with OpenVLA) compared to baselines, thereby providing a simple plug-in path to efficient robot policies that advances the efficiency and performance frontier of robotic manipulation. Our project website is: \href{https://vla-adp.github.io/}{ADP.com}.
- Abstract(参考訳): Vision-Language-Actionモデルを用いたロボット操作では、高密度な視覚トークンへの注意が計算コストを左右する長距離多モードコンテキストに対する効率的な推論が必要となる。
既存の手法では、VLAモデル内の視覚的冗長性を低減して推論速度を最適化するが、ロボット操作段階の様々な冗長性を見落としている。
視覚的トークンの冗長性は、粗い操作フェーズにおいて、きめ細かい操作よりも高く、動作ダイナミクスと強く相関している。
本研究の目的は,テキスト駆動型トークン選択とアクション対応トラジェクトリゲーティングを統合したマルチモーダルプルーニングフレームワークである \textbf{A}ction-aware \textbf{D}ynamic \textbf{P}runing (\textbf{ADP}) を提案することである。
提案手法では,従来の動作ウィンドウを用いて動的にトークン保持率を適応的に調整し,異なる操作段階における計算効率と知覚精度のバランスをとることにより,最近の動作軌跡にプルーニング信号を設定するゲーティング機構を導入する。
LIBEROスイートと多種多様な実世界のシナリオに対する大規模な実験により、我々の手法は、ロボット操作の効率と性能を向上する効率的なロボットポリシーのためのシンプルなプラグインパスを提供しながら、FLOPとアクション推論遅延(\textit{e g } $1.35 \times$ speed up on OpenVLA-OFT)を大幅に低減することを示した。
プロジェクトのWebサイトは以下のとおりである。
関連論文リスト
- TTF-VLA: Temporal Token Fusion via Pixel-Attention Integration for Vision-Language-Action Models [29.878993349922368]
Vision-Language-Action (VLA)モデルは、ロボット操作タスクに固有の貴重な時間情報を捨て、各タイミングで視覚入力を独立に処理する。
本稿では,VLA推論品質を向上させるために,歴史的および現在の視覚表現を統合した訓練不要なTTFを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:03:34Z) - VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting [40.837048280287206]
視覚言語行動(VLA)モデルは、自然言語で案内されるロボット操作タスクにおいて優れた性能を示している。
現在のVLAモデルは、2つの欠点に悩まされている: (i) 高い推論遅延とトレーニングコストの増加につながる大量のトークンの生成、 (ii) 生成されたアクションの不十分な利用により性能が低下する。
並列性の高いアクショントークンを生成するために,VLAモデルを微調整するトレーニングフレームワークを開発し,推論遅延とトレーニングコストを効果的に低減する。
論文 参考訳(メタデータ) (2025-07-07T15:30:55Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [69.54069477520534]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。
FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文 参考訳(メタデータ) (2025-01-16T18:57:04Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。