Fugu-MT 論文翻訳(概要): villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models

論文の概要: villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models

arxiv url: http://arxiv.org/abs/2507.23682v1
Date: Thu, 31 Jul 2025 15:57:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 17:19:10.111863
Title: villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models
Title（参考訳）: Vision-Language-Action Modelにおける遅延アクションモデリングの強化
Authors: Xiaoyu Chen, Hangxing Wei, Pushi Zhang, Chuheng Zhang, Kaixin Wang, Yanjiang Guo, Rushuai Yang, Yucen Wang, Xinquan Xiao, Li Zhao, Jianyu Chen, Jiang Bian,
Abstract要約: 一般化可能なロボット操作ポリシーを学習するための新しいVisual-Language-Latent-Action(ViLLA)フレームワークであるVilla-Xを紹介する。我々の貢献により, SIMPLER や LIBERO などのシミュレーション環境において, Villa-X が優れた性能を実現することができる。
参考スコア（独自算出の注目度）: 24.768488611365733
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual-Language-Action (VLA) models have emerged as a popular paradigm for learning robot manipulation policies that can follow language instructions and generalize to novel scenarios. Recent work has begun to explore the incorporation of latent actions, an abstract representation of visual change between two frames, into VLA pre-training. In this paper, we introduce villa-X, a novel Visual-Language-Latent-Action (ViLLA) framework that advances latent action modeling for learning generalizable robot manipulation policies. Our approach improves both how latent actions are learned and how they are incorporated into VLA pre-training. Together, these contributions enable villa-X to achieve superior performance across simulated environments including SIMPLER and LIBERO, as well as on two real-world robot setups including gripper and dexterous hand manipulation. We believe the ViLLA paradigm holds significant promise, and that our villa-X provides a strong foundation for future research.
Abstract（参考訳）: VLA(Visual-Language-Action)モデルは、言語命令に従い、新しいシナリオに一般化できるロボット操作ポリシーを学ぶための一般的なパラダイムとして登場した。最近の研究は、2つのフレーム間の視覚的変化の抽象的な表現である潜在行動のVLA事前学習への導入を探求し始めている。本稿では,ビジュアルランゲージ・ラテント・アクション(ViLLA, Visual-Language-Latent-Action)フレームワークであるVilla-Xを紹介する。当社のアプローチは、潜伏行動の学習方法と、VLA事前学習への組み入れ方法の両方を改善する。これらの貢献により, SIMPLER や LIBERO などのシミュレーション環境と, グリップやデキスタラスハンド操作を含む2つの実世界のロボット環境において, ビラX による優れた性能を実現することができる。 ViLLAパラダイムは大きな可能性を秘めており、当社のVilla-Xが将来の研究の強力な基盤となると信じています。

関連論文リスト

Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends [11.678954304546988]
視覚言語アクション(VLA)モデル拡張視覚言語モデル(VLM) 本稿では,人間の運動学習のレンズによるVLAモデルの訓練戦略についてレビューする。
論文参考訳（メタデータ） (2025-06-26T03:06:57Z)
Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文参考訳（メタデータ） (2025-06-24T17:59:57Z)
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文参考訳（メタデータ） (2025-03-27T22:23:04Z)
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。 VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文参考訳（メタデータ） (2024-11-29T12:06:03Z)
Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-15T16:28:09Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文参考訳（メタデータ） (2024-06-17T17:55:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。