論文の概要: villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2507.23682v1
- Date: Thu, 31 Jul 2025 15:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.111863
- Title: villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models
- Title(参考訳): Vision-Language-Action Modelにおける遅延アクションモデリングの強化
- Authors: Xiaoyu Chen, Hangxing Wei, Pushi Zhang, Chuheng Zhang, Kaixin Wang, Yanjiang Guo, Rushuai Yang, Yucen Wang, Xinquan Xiao, Li Zhao, Jianyu Chen, Jiang Bian,
- Abstract要約: 一般化可能なロボット操作ポリシーを学習するための新しいVisual-Language-Latent-Action(ViLLA)フレームワークであるVilla-Xを紹介する。
我々の貢献により, SIMPLER や LIBERO などのシミュレーション環境において, Villa-X が優れた性能を実現することができる。
- 参考スコア(独自算出の注目度): 24.768488611365733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-Language-Action (VLA) models have emerged as a popular paradigm for learning robot manipulation policies that can follow language instructions and generalize to novel scenarios. Recent work has begun to explore the incorporation of latent actions, an abstract representation of visual change between two frames, into VLA pre-training. In this paper, we introduce villa-X, a novel Visual-Language-Latent-Action (ViLLA) framework that advances latent action modeling for learning generalizable robot manipulation policies. Our approach improves both how latent actions are learned and how they are incorporated into VLA pre-training. Together, these contributions enable villa-X to achieve superior performance across simulated environments including SIMPLER and LIBERO, as well as on two real-world robot setups including gripper and dexterous hand manipulation. We believe the ViLLA paradigm holds significant promise, and that our villa-X provides a strong foundation for future research.
- Abstract(参考訳): VLA(Visual-Language-Action)モデルは、言語命令に従い、新しいシナリオに一般化できるロボット操作ポリシーを学ぶための一般的なパラダイムとして登場した。
最近の研究は、2つのフレーム間の視覚的変化の抽象的な表現である潜在行動のVLA事前学習への導入を探求し始めている。
本稿では,ビジュアルランゲージ・ラテント・アクション(ViLLA, Visual-Language-Latent-Action)フレームワークであるVilla-Xを紹介する。
当社のアプローチは、潜伏行動の学習方法と、VLA事前学習への組み入れ方法の両方を改善する。
これらの貢献により, SIMPLER や LIBERO などのシミュレーション環境と, グリップやデキスタラスハンド操作を含む2つの実世界のロボット環境において, ビラX による優れた性能を実現することができる。
ViLLAパラダイムは大きな可能性を秘めており、当社のVilla-Xが将来の研究の強力な基盤となると信じています。
関連論文リスト
- CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - Large Video Planner Enables Generalizable Robot Control [117.49024534548319]
汎用ロボットは、様々なタスクや環境にまたがって一般化する意思決定モデルを必要とする。
最近の研究は、マルチモーダル大言語モデル(LM)をアクション出力で拡張し、視覚-アクション(VLA)システムを構築することで、ロボット基盤モデルを構築している。
本稿では,ロボット基礎モデル構築における主要なモダリティとして,大規模ビデオ事前学習を用いるための代替パラダイムについて検討する。
論文 参考訳(メタデータ) (2025-12-17T18:35:54Z) - VideoVLA: Video Generators Can Be Generalizable Robot Manipulators [86.70243911696616]
ロボット操作の一般化は、オープンワールド環境におけるロボットの展開に不可欠である。
本稿では,大容量ビデオ生成モデルをロボットVLAマニピュレータに変換する可能性を探る,シンプルなアプローチであるVideoVLAを提案する。
論文 参考訳(メタデータ) (2025-12-07T18:57:15Z) - LACY: A Vision-Language Model-based Language-Action Cycle for Self-Improving Robotic Manipulation [11.419077130835829]
LACY(Language-Action Cycle)は、単一の視覚言語モデル内で双方向マッピングを学習する統合フレームワークである。
LACYはタスク成功率を平均56.46%改善し、ロボット操作のための堅牢な言語アクション基盤を提供する。
論文 参考訳(メタデータ) (2025-11-04T04:02:51Z) - UniCoD: Enhancing Robot Policy via Unified Continuous and Discrete Representation Learning [22.84748754972181]
オープンエンド環境で多様なタスクを処理できる汎用的なロボットポリシーを構築することは、ロボット工学における中心的な課題である。
大規模な事前学習から知識を活用するために、以前の研究は一般的に視覚言語理解モデル(VLM)または生成モデルの上に一般的なポリシーを構築してきた。
最近の生成と理解の統一モデルは、大規模な事前学習を通じて、理解と生成の両方において強力な能力を示している。
そこで,UniCoDを導入し,100万以上のインターネット規模の操作映像を事前学習することで,高次元視覚特徴を動的にモデル化する機能を実現する。
論文 参考訳(メタデータ) (2025-10-12T14:54:19Z) - Latent Action Pretraining Through World Modeling [1.988007188564225]
自己教師型手法で模倣学習モデルを事前学習するためのモデルに依存しないフレームワークであるLAWMを提案する。
当社のフレームワークは,タスクや環境,実施環境の移動に有効であるように設計されています。
論文 参考訳(メタデータ) (2025-09-22T21:19:10Z) - Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends [11.678954304546988]
視覚言語アクション(VLA)モデル拡張視覚言語モデル(VLM)
本稿では,人間の運動学習のレンズによるVLAモデルの訓練戦略についてレビューする。
論文 参考訳(メタデータ) (2025-06-26T03:06:57Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。