論文の概要: BLURR: A Boosted Low-Resource Inference for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2512.11769v1
- Date: Fri, 12 Dec 2025 18:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.30966
- Title: BLURR: A Boosted Low-Resource Inference for Vision-Language-Action Models
- Title(参考訳): BLURR:ビジョンランゲージ・アクションモデルのための低リソース推論
- Authors: Xiaoyu Ma, Zhengqing Yuan, Zheyuan Zhang, Kaiwen Shi, Lichao Sun, Yanfang Ye,
- Abstract要約: 視覚言語アクション(VLA)モデルは印象的なゼロショット操作を可能にするが、その推論スタックは応答性のあるWebデモには重すぎることが多い。
モデルチェックポイントの再トレーニングや変更なしに既存のVLAコントローラにプラグインできる軽量推論ラッパーであるBLURRを提案する。
- 参考スコア(独自算出の注目度): 34.57464032562792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models enable impressive zero shot manipulation, but their inference stacks are often too heavy for responsive web demos or high frequency robot control on commodity GPUs. We present BLURR, a lightweight inference wrapper that can be plugged into existing VLA controllers without retraining or changing model checkpoints. Instantiated on the pi-zero VLA controller, BLURR keeps the original observation interfaces and accelerates control by combining an instruction prefix key value cache, mixed precision execution, and a single step rollout schedule that reduces per step computation. In our SimplerEnv based evaluation, BLURR maintains task success rates comparable to the original controller while significantly lowering effective FLOPs and wall clock latency. We also build an interactive web demo that allows users to switch between controllers and toggle inference options in real time while watching manipulation episodes. This highlights BLURR as a practical approach for deploying modern VLA policies under tight compute budgets.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、印象的なゼロショット操作を可能にするが、その推論スタックは、応答性のあるWebデモやコモディティGPUでの高周波ロボット制御には重すぎることが多い。
モデルチェックポイントの再トレーニングや変更なしに既存のVLAコントローラにプラグインできる軽量推論ラッパーであるBLURRを提案する。
pi-zero VLAコントローラ上に実装されたBLURRは、命令プレフィックスキー値キャッシュ、混合精度実行、ステップ毎の計算を削減したシングルステップロールアウトスケジュールを組み合わせることで、元の監視インターフェースを保持し、制御を高速化する。
SimplerEnvに基づく評価では、BLURRは元のコントローラに匹敵するタスク成功率を維持しながら、効果的なFLOPとウォールクロックレイテンシを大幅に低下させています。
また、インタラクティブなWebデモを作成し、ユーザーは操作エピソードを見ながら、コントローラを切り替えたり、推論オプションをリアルタイムで切り替えることができます。
このことは、BLURRを、厳格な計算予算の下で近代的なVLAポリシーを展開するための実践的なアプローチとして強調している。
関連論文リスト
- vLLM Hook v0: A Plug-in for Programming Model Internals on vLLM [55.32525477916152]
我々は、大言語モデル(LLM)の内部状態のプログラミングを可能にするオープンソースのプラグインであるvLLM Hookを紹介する。
vLLM HookはvLLMへのシームレスな統合を提供し、パッシブプログラミングとアクティブプログラミングの2つの重要な機能をサポートしている。
本稿では, インジェクション検出, 検索強化検索 (RAG) , アクティベーションステアリングの3つのユースケースについて紹介する。
論文 参考訳(メタデータ) (2026-02-02T16:34:13Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching [23.52474883720957]
VLA(Vision-Language-Action)モデルは、視覚知覚と言語命令から直接のアクション生成を可能にする強力なマルチモーダル推論能力を示している。
本稿では,フレーム間の静的な視覚トークンを適応的にキャッシュ・再利用することにより,計算オーバーヘッドを低減する訓練不要な推論高速化手法であるVLA-Cacheを紹介する。
論文 参考訳(メタデータ) (2025-02-04T09:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。