Fugu-MT 論文翻訳(概要): Realtime-VLA V2: Learning to Run VLAs Fast, Smooth, and Accurate

論文の概要: Realtime-VLA V2: Learning to Run VLAs Fast, Smooth, and Accurate

arxiv url: http://arxiv.org/abs/2603.26360v1
Date: Fri, 27 Mar 2026 12:37:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 21:49:48.503069
Title: Realtime-VLA V2: Learning to Run VLAs Fast, Smooth, and Accurate
Title（参考訳）: Realtime-VLA V2: VLAの高速実行、スムース、正確性を学ぶ
Authors: Chen Yang, Yucheng Hu, Yunchao Ma, Yunhuan Yang, Jing Tan, Haoqiang Fan,
Abstract要約: 本稿では,VLA駆動ロボットを現実のタスクにおいて目覚ましい速度で動作させることにより,エンド・ツー・エンドの成果を達成するための実用的手法について述べる。テクノロジーのスタックは、キャリブレーション、計画と制御、そして最適な実行速度を特定するための学習ベースの方法にまたがる。ご覧のタスクでは、ロボットはカジュアルな人間の操作と同等のスピードで実行し、軽量アームのハードウェア限界に近づきます。
参考スコア（独自算出の注目度）: 17.203916358155286
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In deployment of the VLA models to real-world robotic tasks, execution speed matters. In previous work arXiv:2510.26742 we analyze how to make neural computation of VLAs on GPU fast. However, we leave the question of how to actually deploy the VLA system on the real robots open. In this report we describe a set of practical techniques to achieve the end-to-end result of running a VLA-driven robot at an impressive speed in real world tasks that require both accuracy and dexterity. The stack of technology ranges across calibration, planning & control, and learning based method to identify optimal execution speed. In the tasks we show, the robot even executes in a speed on par with casual human operation and approaching the hardware limit of our lightweight arm. The unaccelerated videos and inference traces are provided in https://dexmal.github.io/realtime-vla-v2/.
Abstract（参考訳）: VLAモデルを現実世界のロボットタスクに展開する際には、実行速度が重要となる。前回のarXiv:2510.26742では、GPU上でVLAのニューラルネットワークを高速に行う方法について分析した。しかし、実際のロボットにVLAシステムを実際にどのように展開するかという疑問は残る。本稿では,VLA駆動ロボットを実世界のタスクにおいて,精度とディクスタリティの両方を必要とする印象的な速度で動作させることで,エンド・ツー・エンドの成果を達成するための実用的手法について述べる。テクノロジーのスタックは、キャリブレーション、計画と制御、そして最適な実行速度を特定するための学習ベースの方法にまたがる。ご覧のタスクでは、ロボットはカジュアルな人間の操作と同等のスピードで実行し、軽量アームのハードウェア限界に近づきます。未アクセラレーションビデオと推論トレースはhttps://dexmal.github.io/realtime-vla-v2/で提供されている。

関連論文リスト

DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation [7.958222488148539]
本稿では,各アクションの重要性に基づいて動的にVLA層をスキップすることで,計算コストに対処する新しいフレームワークDySL-VLAを提案する。実験の結果,DySL-VLAはCalvinデータセット上のDeer-VLAよりも2.1%向上していることがわかった。
論文参考訳（メタデータ） (2026-02-26T11:34:36Z)
Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution [32.93468341343403]
我々は、高速かつスムーズなリアルタイム実行のために最適化された高度な視覚言語アクション(VLA)モデルであるXiaomi-Robotics-0を紹介する。 Xiaomi-Robotics-0は、大規模なクロス・エボディメント・ロボット軌道と視覚言語データに事前訓練された。我々はXiaomi-Robotics-0をシミュレーションベンチマークで広範囲に評価し、正確で巧妙なバイマニュアル操作を必要とする2つの挑戦的な実ロボットタスクについて検討した。
論文参考訳（メタデータ） (2026-02-13T07:30:43Z)
Robotic VLA Benefits from Joint Learning with Motion Image Diffusion [114.60268819583017]
VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
論文参考訳（メタデータ） (2025-12-19T19:07:53Z)
VLA-0: Building State-of-the-Art VLAs with Zero Modification [8.916252953026888]
VLA(Vision-Language-Action Model)は、汎用的なロボット操作を可能にするための大きな約束を持っている。この研究はVLA-0を導入し、アクションを直接テキストとして表現する最も単純な戦略を解明する。 VLA-0は有効であるだけでなく、驚くほど強力である。
論文参考訳（メタデータ） (2025-10-15T00:31:10Z)
VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。 VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文参考訳（メタデータ） (2025-05-24T14:42:51Z)
ReBot: Scaling Robot Learning with Real-to-Sim-to-Real Robotic Video Synthesis [39.50916343607966]
ReBotは、実際のロボットデータセットをスケーリングするための、新しいリアル・トゥ・シミュレート・トゥ・リアルのアプローチである。 ReBotは視覚言語アクション(VLA)モデルの性能とロバスト性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-03-15T16:47:25Z)
FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。 FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文参考訳（メタデータ） (2025-01-16T18:57:04Z)
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。 4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文参考訳（メタデータ） (2024-12-13T18:40:51Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。