論文の概要: RotVLA: Rotational Latent Action for Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2605.13403v1
- Date: Wed, 13 May 2026 11:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.027682
- Title: RotVLA: Rotational Latent Action for Vision-Language-Action Model
- Title(参考訳): RotVLA:ビジョン・ランゲージ・アクションモデルのための回転潜時動作
- Authors: Qiwei Li, Xicheng Gong, Xinghang Li, Peiyan Li, Quanyun Zhou, Hangjun Ye, Jiahuan Zhou, Yadong Mu,
- Abstract要約: 本稿では,連続的な回転潜在動作表現に基づくVLAフレームワークであるRotVLAを紹介する。
潜在作用はSO(n) の元としてモデル化され、連続性、構成性、および実世界の作用力学と整合した構造的幾何学を提供する。
RotVLAはVLMバックボーンとフローマッチングアクションヘッドで構成される。
- 参考スコア(独自算出の注目度): 54.22746299071677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent Action Models (LAMs) have emerged as an effective paradigm for handling heterogeneous datasets during Vision-Language-Action (VLA) model pretraining, offering a unified action space across embodiments. However, existing LAMs often rely on discrete quantization encode and decode pipelines, which can lead to trivial frame reconstruction behavior, limited representational capacity, and a lack of physically meaningful structure. We introduce RotVLA, a VLA framework built on a continuous rotational latent action representation. Latent actions are modeled as elements of SO(n), providing continuity, compositionality, and structured geometry aligned with real-world action dynamics. A triplet frame learning framework further enforces meaningful temporal dynamics while avoiding degeneration. RotVLA consists of a VLM backbone and a flow-matching action head, pretrained on large-scale cross-embodiment robotic datasets and human videos with latent-action supervision. For downstream robot control, the flow-matching head is extended into a unified action expert that jointly denoises latent and robot actions. Here, latent actions serve as a latent planner, providing high-level guidance that conditions action generation. With only 1.7B parameters and 1700+ hours of pretraining data, RotVLA achieves 98.2% on LIBERO and 89.6% / 88.5% on RoboTwin2.0 under clean and randomized settings, respectively. It also demonstrates strong real-world performance on manipulation tasks, consistently outperforming existing VLA models.
- Abstract(参考訳): ラテント・アクション・モデル(LAM)は、ビジョン・ランゲージ・アクション(VLA)モデル事前トレーニング中に異種データセットを扱うための効果的なパラダイムとして登場し、エボディメントにまたがる統一されたアクション・スペースを提供する。
しかし、既存のLAMは離散量子化エンコードとデコードパイプラインに依存しており、これは自明なフレーム再構成動作、表現能力の制限、物理的に意味のある構造が欠如する可能性がある。
本稿では,連続的な回転潜在動作表現に基づくVLAフレームワークであるRotVLAを紹介する。
潜在作用はSO(n) の元としてモデル化され、連続性、構成性、および実世界の作用力学と整合した構造的幾何学を提供する。
3重フレーム学習フレームワークは、変性を避けながら意味のある時間的ダイナミクスをさらに強化する。
RotVLAは、VLMバックボーンとフローマッチングアクションヘッドで構成され、大規模なクロスボディーメントロボットデータセットと遅延アクション監視を備えた人間のビデオで事前訓練されている。
下流のロボット制御では、フローマッチングヘッドは、潜伏動作とロボット動作を併用する統合アクションエキスパートに拡張される。
ここでは、潜在的な行動は遅延プランナーとして機能し、アクション生成を条件付ける高レベルなガイダンスを提供する。
1.7Bパラメータと1700時間以上の事前トレーニングデータだけで、RotVLAはLIBEROで98.2%、RoboTwin2.0で89.6% / 88.5%を達成した。
また、操作タスクにおける現実世界のパフォーマンスも強く、既存のVLAモデルよりも一貫して優れています。
関連論文リスト
- AttenA+: Rectifying Action Inequality in Robotic Foundation Models [38.61160855341111]
本稿では,速度駆動型アクションアテンションを通じて,運動学的に重要なセグメントを優先するアーキテクチャに依存しないフレームワークであるAttenA+を紹介する。
我々の研究は、本質的な行動列の構造的前提をマイニングすることが、標準的なスケーリング法則に非常に効率的で物理学的な補完をもたらすことを示唆している。
論文 参考訳(メタデータ) (2026-05-13T13:55:37Z) - DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - Chain of World: World Model Thinking in Latent Motion [24.24061036481793]
VLA(Vision-Language-Action)モデルはしばしば、視覚力学の基礎となる予測的・時間的・因果的構造を見落としている。
我々は,世界モデルの時間的推論を非絡み合いの潜在動作表現と統合する新しい「世界の連鎖」パラダイムであるCoWVLAを紹介した。
CoWVLAは、既存のワールドモデルおよび潜在アクションアプローチより優れ、適度な計算効率を達成する。
論文 参考訳(メタデータ) (2026-03-03T17:52:06Z) - VLA-RAIL: A Real-Time Asynchronous Inference Linker for VLA Models and Robots [5.308743386891208]
VLA(Vision-Language-Action)モデルは、ロボット工学において画期的な進歩を遂げた。
連続したアクションチャンクのキューを融合する戦略は、VLAモデル全体のパフォーマンスに大きな影響を与える。
既存の方法は、ロボットアクションの実行時にジッタ、ストール、あるいは停止に悩まされる。
本稿では,モデル推論とロボット動作制御を非同期に行うように設計された新しいフレームワークであるVLA-RAILを紹介する。
論文 参考訳(メタデータ) (2025-12-31T06:59:42Z) - Robotic VLA Benefits from Joint Learning with Motion Image Diffusion [114.60268819583017]
VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。
動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。
シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
論文 参考訳(メタデータ) (2025-12-19T19:07:53Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。