論文の概要: Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2512.20188v1
- Date: Tue, 23 Dec 2025 09:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.81468
- Title: Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation
- Title(参考訳): 全体ロボットマニピュレーションのための非同期高速スロービジョンランゲージ・アクション・ポリシー
- Authors: Teqiang Zou, Hongliang Zeng, Yuxuan Nong, Yifan Li, Kehui Liu, Haotian Yang, Xinyang Ling, Xin Li, Lianyang Ma,
- Abstract要約: Vision-Language-Action(VLA)システムは、意味論的推論のためのVision-Language Model(VLM)と、連続的なアクション信号を生成するアクションエキスパートを統合する。
本稿では,非同期なFast-Slow VLAフレームワーク(DuoCore-FS)を導入し,アクション生成のための高速経路とリッチなVLM推論のための遅い経路にシステムを編成する。
- 参考スコア(独自算出の注目度): 10.09057399213028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most Vision-Language-Action (VLA) systems integrate a Vision-Language Model (VLM) for semantic reasoning with an action expert generating continuous action signals, yet both typically run at a single unified frequency. As a result, policy performance is constrained by the low inference speed of large VLMs. This mandatory synchronous execution severely limits control stability and real-time performance in whole-body robotic manipulation, which involves more joints, larger motion spaces, and dynamically changing views. We introduce a truly asynchronous Fast-Slow VLA framework (DuoCore-FS), organizing the system into a fast pathway for high-frequency action generation and a slow pathway for rich VLM reasoning. The system is characterized by two key features. First, a latent representation buffer bridges the slow and fast systems. It stores instruction semantics and action-reasoning representation aligned with the scene-instruction context, providing high-level guidance to the fast pathway. Second, a whole-body action tokenizer provides a compact, unified representation of whole-body actions. Importantly, the VLM and action expert are still jointly trained end-to-end, preserving unified policy learning while enabling asynchronous execution. DuoCore-FS supports a 3B-parameter VLM while achieving 30 Hz whole-body action-chunk generation, approximately three times as fast as prior VLA models with comparable model sizes. Real-world whole-body manipulation experiments demonstrate improved task success rates and significantly enhanced responsiveness compared to synchronous Fast-Slow VLA baselines. The implementation of DuoCore-FS, including training, inference, and deployment, is provided to commercial users by Astribot as part of the Astribot robotic platform.
- Abstract(参考訳): ほとんどのVLA(Vision-Language-Action)システムは、連続的なアクション信号を生成するアクションエキスパートと意味論的推論のためのVision-Language Model(VLM)を統合している。
結果として、ポリシー性能は、大きなVLMの低推論速度によって制約される。
この強制的同期実行は、より多くの関節、より大きな運動空間、動的に変化するビューを含む全身ロボット操作において、制御の安定性とリアルタイムのパフォーマンスを著しく制限する。
我々は,非同期なFast-Slow VLAフレームワーク(DuoCore-FS)を導入し,高頻度動作生成のための高速経路とリッチなVLM推論のための遅い経路にシステムを編成する。
このシステムには2つの重要な特徴がある。
まず、遅延表現バッファは遅くて速いシステムをブリッジする。
命令セマンティクスとアクション推論表現をシーン命令コンテキストに合わせて格納し、高速経路への高レベルなガイダンスを提供する。
第二に、全体アクショントークンーザは、全体アクションのコンパクトで統一された表現を提供する。
重要なことは、VLMとアクションエキスパートはいまだにエンドツーエンドでトレーニングされており、非同期実行を有効にしながら、統一されたポリシー学習を保存する。
DuoCore-FSは3BパラメータのVLMをサポートし、ボディ全体の動作クランク生成は30Hzで、モデルサイズに匹敵する以前のVLAモデルの約3倍高速である。
実世界の全体操作実験は、同期高速スローVLAベースラインと比較してタスク成功率と応答性を大幅に向上した。
トレーニング、推論、デプロイメントを含むDuoCore-FSの実装は、Astribotのロボットプラットフォームの一部として、Astribotによって商用ユーザに提供する。
関連論文リスト
- FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - SAIL: Faster-than-Demonstration Execution of Imitation Learning Policies [20.52085846080824]
オフライン・イミテーション・ラーニング(IL)法は複雑なロボット操作技術を得るのに効果的である。
既存のILトレーニングされたポリシーは、デモデータに示すように、タスクを同じ速度で実行することに限定される。
本稿では,ビジュモータポリシーの高速化を実現するための新しい問題を紹介し,定式化する。
論文 参考訳(メタデータ) (2025-06-13T16:58:20Z) - A Dual Process VLA: Efficient Robotic Manipulation Leveraging VLM [0.26334346517416873]
VLA(Vision-Language-Action)モデルでは、視覚コンテキストと言語コマンドを統合することで、ロボットが複雑なタスクを実行できる。
これを解決するために,デュアルプロセス理論に着想を得た階層型フレームワークであるDual Process VLA(DP-VLA)を提案する。
RoboCasaデータセットの実験結果は、DP-VLAがより高速な推論とより高いタスク成功率を達成することを示した。
論文 参考訳(メタデータ) (2024-10-21T00:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。