論文の概要: Universal Pose Pretraining for Generalizable Vision-Language-Action Policies
- arxiv url: http://arxiv.org/abs/2602.19710v1
- Date: Mon, 23 Feb 2026 11:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.779752
- Title: Universal Pose Pretraining for Generalizable Vision-Language-Action Policies
- Title(参考訳): 一般化可能なビジョン・ランゲージ・アクション・ポリシーのためのユニバーサル・ポース事前学習
- Authors: Haitao Lin, Hanyang Yu, Jingshun Huang, He Zhang, Yonggen Ling, Ping Tan, Xiangyang Xue, Yanwei Fu,
- Abstract要約: 既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
- 参考スコア(独自算出の注目度): 83.39008378156647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Vision-Language-Action (VLA) models often suffer from feature collapse and low training efficiency because they entangle high-level perception with sparse, embodiment-specific action supervision. Since these models typically rely on VLM backbones optimized for Visual Question Answering (VQA), they excel at semantic identification but often overlook subtle 3D state variations that dictate distinct action patterns. To resolve these misalignments, we propose Pose-VLA, a decoupled paradigm that separates VLA training into a pre-training phase for extracting universal 3D spatial priors in a unified camera-centric space, and a post-training phase for efficient embodiment alignment within robot-specific action space. By introducing discrete pose tokens as a universal representation, Pose-VLA seamlessly integrates spatial grounding from diverse 3D datasets with geometry-level trajectories from robotic demonstrations. Our framework follows a two-stage pre-training pipeline, establishing fundamental spatial grounding via poses followed by motion alignment through trajectory supervision. Extensive evaluations demonstrate that Pose-VLA achieves state-of-the-art results on RoboTwin 2.0 with a 79.5% average success rate and competitive performance on LIBERO at 96.0%. Real-world experiments further showcase robust generalization across diverse objects using only 100 demonstrations per task, validating the efficiency of our pre-training paradigm.
- Abstract(参考訳): 既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
これらのモデルは一般的に、視覚質問回答(VQA)に最適化されたVLMバックボーンに依存しているため、セマンティックな識別が優れているが、しばしば異なるアクションパターンを規定する微妙な3D状態のバリエーションを見落としている。
これらの不整合を解決するために,VLAトレーニングをカメラ中心の統一空間において普遍的な3次元空間先行を抽出するための事前学習フェーズと,ロボット固有の行動空間内で効率よく実施するための後学習フェーズとに分離する分離されたパラダイムであるPose-VLAを提案する。
離散ポーズトークンを普遍的な表現として導入することにより、Pose-VLAは、多様な3Dデータセットからの空間的接地と、ロボットによるデモンストレーションからの幾何学レベルの軌跡をシームレスに統合する。
本フレームワークは,2段階の事前学習パイプラインに追従し,ポーズによる基本的空間接地と軌道監視による運動アライメントを確立する。
Pose-VLAはRoboTwin 2.0上で79.5%の成功率とLIBEROでの競争性能を96.0%で達成している。
実世界の実験はさらに、タスク毎に100のデモしか使用せず、多様なオブジェクトをまたいだ堅牢な一般化を実証し、事前学習パラダイムの効率性を検証する。
関連論文リスト
- PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - iFlyBot-VLA Technical Report [25.330744626382977]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。
主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文 参考訳(メタデータ) (2025-11-01T06:24:56Z) - Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations [26.678553477485362]
本稿では,ロボット操作に適応しながら,事前学習した特徴をよりよく保存するフレームワークを提案する。
提案手法では, (i) 事前学習された特徴を保持するために, 凍結したビジョンを持つデュアルエンコーダ設計と, (ii) モデルの事前学習領域に整合した文字列に連続的なアクションを投入する文字列ベースのアクショントークン化器, (iii) ロボットのデモンストレーションと,空間的推論とアプライアンスを強調する視覚言語データセットを組み合わせた協調学習戦略の3つのコンポーネントを導入している。
論文 参考訳(メタデータ) (2025-09-14T20:08:56Z) - Grounding Actions in Camera Space: Observation-Centric Vision-Language-Action Policy [47.51062818231493]
本稿では,カメラの観測空間にアクション予測を直接適用するOC-VLA(Observatory-Centric VLA)フレームワークを紹介する。
OC-VLAは、ロボットベース座標系からカメラ座標系にエンドエフェクターポーズを変換する。
この戦略は、カメラ視点の変化に対するモデルレジリエンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-08-18T17:10:45Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - PointVLA: Injecting the 3D World into Vision-Language-Action Models [10.758939578236582]
我々は,ポイントクラウド入力を必要とせずに,事前学習された視覚言語行動モデルを強化するフレームワークであるPointVLAを提案する。
本手法は,バニラ動作の専門家を凍結し,軽量なモジュールブロックを介して3次元特徴を注入する。
PointVLAは、シミュレーションと現実世界の両方のロボットタスクにおいて、最先端の2D模倣学習方法より優れています。
論文 参考訳(メタデータ) (2025-03-10T16:32:41Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。