Fugu-MT 論文翻訳(概要): ActionFlow: A Pipelined Action Acceleration for Vision Language Models on Edge

論文の概要: ActionFlow: A Pipelined Action Acceleration for Vision Language Models on Edge

arxiv url: http://arxiv.org/abs/2512.20276v1
Date: Tue, 23 Dec 2025 11:29:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-24 19:17:49.848848
Title: ActionFlow: A Pipelined Action Acceleration for Vision Language Models on Edge
Title（参考訳）: ActionFlow:エッジ上のビジョン言語モデルのためのパイプライン化されたアクションアクセラレーション
Authors: Yuntao Dai, Hang Gu, Teng Wang, Qianyu Cheng, Yifei Zheng, Zhiyong Qiu, Lei Gong, Wenqi Lou, Xuehai Zhou,
Abstract要約: VLA(Vision-Language-Action)モデルは、ロボットの知覚と制御の統一パラダイムとして登場した。現在のVLAモデルは、自己回帰復号のメモリバウンド特性のため、エッジデバイス上でわずか3-5Hzで動作する。本稿では,リソース制約のあるエッジプレート形式に適したシステムレベルの推論フレームワークであるActionFlowを紹介する。
参考スコア（独自算出の注目度）: 11.016302257907936
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language-Action (VLA) models have emerged as a unified paradigm for robotic perception and control, enabling emergent generalization and long-horizon task execution. However, their deployment in dynamic, real-world environments is severely hin dered by high inference latency. While smooth robotic interaction requires control frequencies of 20 to 30 Hz, current VLA models typi cally operate at only 3-5 Hz on edge devices due to the memory bound nature of autoregressive decoding. Existing optimizations often require extensive retraining or compromise model accuracy. To bridge this gap, we introduce ActionFlow, a system-level inference framework tailored for resource-constrained edge plat forms. At the core of ActionFlow is a Cross-Request Pipelin ing strategy, a novel scheduler that redefines VLA inference as a macro-pipeline of micro-requests. The strategy intelligently batches memory-bound Decode phases with compute-bound Prefill phases across continuous time steps to maximize hardware utilization. Furthermore, to support this scheduling, we propose a Cross Request State Packed Forward operator and a Unified KV Ring Buffer, which fuse fragmented memory operations into efficient dense computations. Experimental results demonstrate that ActionFlow achieves a 2.55x improvement in FPS on the OpenVLA-7B model without retraining, enabling real-time dy namic manipulation on edge hardware. Our work is available at https://anonymous.4open.science/r/ActionFlow-1D47.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、ロボット知覚と制御の統一パラダイムとして登場し、創発的な一般化と長距離タスク実行を可能にしている。しかし、動的で現実世界の環境への展開は、高い推論遅延によって著しく遅れている。ロボットのスムーズな相互作用は20Hzから30Hzの制御周波数を必要とするが、現在のVLAモデルは、自己回帰復号のメモリバウンド特性のため、エッジデバイス上でわずか3-5Hzで動作する。既存の最適化では、大規模なリトレーニングや妥協モデルの精度が必要となることが多い。このギャップを埋めるために、リソース制約のあるエッジプレート形式に適したシステムレベルの推論フレームワークであるActionFlowを紹介します。 ActionFlowのコアとなるのは、マイクロリクエストのマクロパイプとしてVLA推論を再定義する、新しいスケジューラであるCross-Request Pipelin ing戦略である。この戦略は、ハードウェア利用を最大化するために、メモリバウンドのDecodeフェーズと計算バウンドのPrefillフェーズを連続的なステップでインテリジェントにバッチする。さらに、このスケジューリングをサポートするために、クロスリクエスト状態パッケージフォワード演算子と、断片化されたメモリ操作を効率よく高密度な計算に融合する統一KVリングバッファを提案する。実験の結果、ActionFlowはOpenVLA-7BモデルのFPSを2.55倍改善し、エッジハードウェア上でリアルタイムのダイナミック操作を可能にした。私たちの研究はhttps://anonymous.4open.science/r/ActionFlow-1D47で公開されています。

関連論文リスト

LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics [0.6119773373677944]
本稿では,Jetson Orinクラスハードウェア上でのデバイス上での完全な推論のための,デプロイメント指向のVLAパイプラインであるLiteVLA-Edgeを紹介する。提案手法は、FP32における教師付きイメージ・ツー・アクションの微調整と、4ビットGGUF量子化とGPU加速推論を組み合わせたものである。我々の構成では、LiteVLA-Edgeは、完全にオフラインで動作しながら、150.5,ms(約6.6,Hz)の平均エンドツーエンドランタイムを達成する。
論文参考訳（メタデータ） (2026-03-03T03:20:52Z)
HybridFlow: A Two-Step Generative Policy for Robotic Manipulation [2.2200541495683996]
MeanFlowは、フローマッチングの一段階の変種として、画像生成に強い可能性を示している。 HybridFlowは、MeanFlowのワンステップ生成の迅速な利点を活用することで、推論速度と生成品質のバランスをとる。我々は,ロボット操作ポリシーの現実的なインタラクション能力を高めるために,HybridFlowを実用的な低レイテンシ手法として想定する。
論文参考訳（メタデータ） (2026-02-14T10:50:23Z)
AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge [49.66156306240961]
高レイテンシは制御ループを壊し、リアルタイムデプロイメントでは安全でない強力なモデルをレンダリングする。リアクティブ実行からセマンティック推論を分離する非同期制御フレームワークであるAsyncVLAを提案する。 AsyncVLAは、最先端のベースラインよりも40%高い成功率を達成する。
論文参考訳（メタデータ） (2026-02-13T21:31:19Z)
TIDAL: Temporally Interleaved Diffusion and Action Loop for High-Frequency VLA Control [15.534182843429043]
大規模なVision-Language-Action(VLA)モデルはセマンティックな一般化を提供するが、高い推論遅延に悩まされる。本稿では,高頻度動作から意味論的推論を分離する階層型フレームワークであるTIDALを提案する。 TIDALは、二重周波数アーキテクチャを用いて拡散ベースのVLAのためのバックボーンに依存しないモジュールとして動作する。
論文参考訳（メタデータ） (2026-01-21T12:43:11Z)
Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation [10.09057399213028]
Vision-Language-Action(VLA)システムは、意味論的推論のためのVision-Language Model(VLM)と、連続的なアクション信号を生成するアクションエキスパートを統合する。本稿では,非同期なFast-Slow VLAフレームワーク(DuoCore-FS)を導入し,アクション生成のための高速経路とリッチなVLM推論のための遅い経路にシステムを編成する。
論文参考訳（メタデータ） (2025-12-23T09:28:20Z)
ARMFlow: AutoRegressive MeanFlow for Online 3D Human Reaction Generation [48.716675019745885]
3次元の人間の反応生成は、高速な動きの忠実さ、リアルタイム推論、オンラインシナリオの自己回帰適応性という3つの大きな課題に直面している。動作と速度の時間依存性をモデル化する,MeanFlowベースの自動回帰フレームワークであるARMFlowを提案する。我々のシングルステップオンライン生成は、部分的なシーケンス条件のみを使用しながら、オフラインの最先端性能に適合しながら、InterHumanとInterXの既存のメソッドを40%以上FIDで上回ります。
論文参考訳（メタデータ） (2025-12-18T06:28:42Z)
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文参考訳（メタデータ） (2025-12-02T14:42:54Z)
OmniSAT: Compact Action Token, Faster Auto Regression [70.70037017501357]
我々は、コンパクトで転送可能なアクション表現を学ぶOmni Swift Action Tokenizerを紹介する。その結果、離散トークン化はトレーニングシーケンスを6.8$times$に短縮し、ターゲットエントロピーを低下させる。
論文参考訳（メタデータ） (2025-10-08T03:55:24Z)
SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。 SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-03-25T17:59:57Z)
FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。 FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文参考訳（メタデータ） (2025-01-16T18:57:04Z)
ScaleFlow++: Robust and Accurate Estimation of 3D Motion from Video [26.01796507893086]
本稿では,3次元モーション認識手法であるScaleFlow++を提案する。たった1対のRGBイメージで、ScaleFlow++は光学フローとモーションインディープス(MID)をしっかりと推定できる。 KITTIでは、ScaleFlow++は、SF-allを6.21から5.79に削減し、最高のモノクロシーンフロー推定性能を達成した。
論文参考訳（メタデータ） (2024-09-16T11:59:27Z)
ActionFlow: Equivariant, Accurate, and Efficient Policies with Spatially Symmetric Flow Matching [20.20511152176522]
ActionFlowは、空間対称性誘導バイアスを統合するポリシークラスである。表現レベルでは、ActionFlowはSE(3)不変トランスフォーマーアーキテクチャを導入している。 ActionFlowは、最先端の深層生成モデルであるFlow Matchingを活用する。
論文参考訳（メタデータ） (2024-09-06T19:30:36Z)
ScaleFlow++: Robust and Accurate Estimation of 3D Motion from Video [15.629496237910999]
本稿では,3次元モーション認識手法であるScaleFlow++を提案する。たった1対のRGBイメージで、ScaleFlow++は光学フローとモーションインディープス(MID)をしっかりと推定できる。 KITTIでは、ScaleFlow++は、SF-allを6.21から5.79に削減し、最高のモノクロシーンフロー推定性能を達成した。
論文参考訳（メタデータ） (2024-07-13T07:58:48Z)
GMFlow: Learning Optical Flow via Global Matching [124.57850500778277]
光フロー推定学習のためのGMFlowフレームワークを提案する。機能拡張のためのカスタマイズトランスフォーマー、グローバル機能マッチングのための相関層とソフトマックス層、フロー伝搬のための自己保持層である。我々の新しいフレームワークは、挑戦的なSintelベンチマークにおいて、32項目RAFTのパフォーマンスより優れています。
論文参考訳（メタデータ） (2021-11-26T18:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。