論文の概要: VLA-RAIL: A Real-Time Asynchronous Inference Linker for VLA Models and Robots
- arxiv url: http://arxiv.org/abs/2512.24673v1
- Date: Wed, 31 Dec 2025 06:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.59025
- Title: VLA-RAIL: A Real-Time Asynchronous Inference Linker for VLA Models and Robots
- Title(参考訳): VLAモデルとロボットのためのリアルタイム非同期推論リンカVLA-RAIL
- Authors: Yongsheng Zhao, Lei Zhao, Baoping Cheng, Gongxin Yao, Xuanzhang Wen, Han Gao,
- Abstract要約: VLA(Vision-Language-Action)モデルは、ロボット工学において画期的な進歩を遂げた。
連続したアクションチャンクのキューを融合する戦略は、VLAモデル全体のパフォーマンスに大きな影響を与える。
既存の方法は、ロボットアクションの実行時にジッタ、ストール、あるいは停止に悩まされる。
本稿では,モデル推論とロボット動作制御を非同期に行うように設計された新しいフレームワークであるVLA-RAILを紹介する。
- 参考スコア(独自算出の注目度): 5.308743386891208
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models have achieved remarkable breakthroughs in robotics, with the action chunk playing a dominant role in these advances. Given the real-time and continuous nature of robotic motion control, the strategies for fusing a queue of successive action chunks have a profound impact on the overall performance of VLA models. Existing methods suffer from jitter, stalling, or even pauses in robotic action execution, which not only limits the achievable execution speed but also reduces the overall success rate of task completion. This paper introduces VLA-RAIL (A Real-Time Asynchronous Inference Linker), a novel framework designed to address these issues by conducting model inference and robot motion control asynchronously and guaranteeing smooth, continuous, and high-speed action execution. The core contributions of the paper are two fold: a Trajectory Smoother that effectively filters out the noise and jitter in the trajectory of one action chunk using polynomial fitting and a Chunk Fuser that seamlessly align the current executing trajectory and the newly arrived chunk, ensuring position, velocity, and acceleration continuity between two successive action chunks. We validate the effectiveness of VLA-RAIL on a benchmark of dynamic simulation tasks and several real-world manipulation tasks. Experimental results demonstrate that VLA-RAIL significantly reduces motion jitter, enhances execution speed, and improves task success rates, which will become a key infrastructure for the large-scale deployment of VLA models.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルはロボット工学において画期的なブレークスルーを達成しており、アクションチャンクはこれらの進歩において主要な役割を担っている。
ロボットモーションコントロールのリアルタイムかつ連続的な性質を考えると、連続したアクションチャンクのキューを融合させる戦略は、VLAモデル全体の性能に大きな影響を与える。
既存の方法は、ロボットアクションの実行においてジッタ、ストール、あるいは停止に悩まされ、達成可能な実行速度を制限するだけでなく、タスク完了の全体的な成功率も低下させる。
本稿では,VLA-RAIL(A Real-Time Asynchronous Inference Linker)を紹介し,モデル推論とロボット動作制御を非同期に行い,スムーズで連続的で高速な動作実行を保証することによって,これらの問題に対処する新しいフレームワークを提案する。
本論文のコアコントリビューションは,1つのアクションチャンクの軌跡におけるノイズやジッタを多項式フィッティングを用いて効果的に除去するトラジェクトリ・スモーザーと,現在の実行軌跡と新たに到達したチャンクとをシームレスに整列し,2つの連続したアクションチャンク間の位置,速度,加速度連続性を確保するチャンク・フーザーである。
動的シミュレーションタスクと実世界の操作タスクのベンチマークにおけるVLA-RAILの有効性を検証する。
実験により, VLA-RAILは動作ジッタを著しく低減し, 実行速度を向上し, タスク成功率の向上を図っている。
関連論文リスト
- Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation [10.09057399213028]
Vision-Language-Action(VLA)システムは、意味論的推論のためのVision-Language Model(VLM)と、連続的なアクション信号を生成するアクションエキスパートを統合する。
本稿では,非同期なFast-Slow VLAフレームワーク(DuoCore-FS)を導入し,アクション生成のための高速経路とリッチなVLM推論のための遅い経路にシステムを編成する。
論文 参考訳(メタデータ) (2025-12-23T09:28:20Z) - Robotic VLA Benefits from Joint Learning with Motion Image Diffusion [114.60268819583017]
VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。
動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。
シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
論文 参考訳(メタデータ) (2025-12-19T19:07:53Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding [24.1236728596359]
VLA(Vision-Language-Action)モデルでは、一般化可能なロボット操作の可能性を示している。
本稿では,アクションチャンキングと統合されたVLAモデルのための最初の並列デコーディングフレームワークであるPD-VLAを提案する。
本フレームワークは,並列な固定点反復によって解く非線形システムとして自己回帰復号を再構成する。
論文 参考訳(メタデータ) (2025-03-04T06:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。