論文の概要: PrimitiveVLA: Learning Reusable Motion Primitives for Efficient and Generalizable Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2605.28634v1
- Date: Wed, 27 May 2026 15:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.183978
- Title: PrimitiveVLA: Learning Reusable Motion Primitives for Efficient and Generalizable Robotic Manipulation
- Title(参考訳): PrimitiveVLA: 効率的で汎用的なロボットマニピュレーションのための再利用可能なモーションプリミティブの学習
- Authors: Yutai Li, Shaohui Peng, Jiaming Guo, Di Huang, Zihao Zhang, Yuxuan Guo, Yunkai Gao, Siming Lan, Ling Li, Xing Hu, Yunji Chen,
- Abstract要約: Vision-Language-Action(VLA)モデルは、汎用的なロボットポリシーに有望なパラダイムを提供する。
これらのボトルネックは、一般的なダイレクトインストラクション・トゥ・コントロルマッピング(Direct Instruction-to-Control Mapping)に由来すると我々は主張する。
本稿では,このパラダイムをPrimitive-Centric Disassemble & AssembleパラダイムにシフトさせるフレームワークであるPrimitiveVLAを提案する。
- 参考スコア(独自算出の注目度): 50.8450025321217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models offer a promising paradigm for generalist robotic policies, yet their adaptation is hindered by data inefficiency and poor generalization. We argue that these bottlenecks stem from the prevailing Direct Instruction-to-Control Mapping, which forces models to memorize monolithic trajectories rather than reusable motion patterns, i.e., primitives. We propose PrimitiveVLA, a framework that shifts this paradigm toward a Primitive-Centric Disassemble & Assemble paradigm. Supported by a shared Multimodal Canonical Representation (MCR), PrimitiveVLA unifies two phases: (1) Fine-tuning-phase Disassembly, which uses an automated pipeline to disassemble demonstrations into reusable primitives; and (2) Inference-phase Assembly, which employs a VLM-based planner and an LLM-generated switch module for robust closed-loop execution. By disassembling tasks into reusable primitives, PrimitiveVLA enables VLA models to learn invariant motion patterns instead of task-specific trajectories. Extensive experiments show that our framework improves data efficiency and achieves superior zero-shot generalization across unseen and long-horizon tasks.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルは、汎用的なロボットポリシーに有望なパラダイムを提供するが、それらの適応はデータの非効率性と一般化の貧弱によって妨げられる。
これらのボトルネックは、モデルに再利用可能な動きパターン(プリミティブ)ではなく、モノリシックな軌跡を記憶させることを強制する、一般的なダイレクトインストラクション・トゥ・コントロルマッピング(Direct Instruction-to-Control Mapping)に由来すると我々は主張する。
本稿では,このパラダイムをPrimitive-Centric Disassemble & AssembleパラダイムにシフトさせるフレームワークであるPrimitiveVLAを提案する。
共有マルチモーダルカノニカル表現 (MCR) によってサポートされたPrimitiveVLAは,(1) デモを再利用可能なプリミティブに分解するために自動パイプラインを使用するファインチューニングフェーズの分解,(2) VLM ベースのプランナと LLM 生成スイッチモジュールを用いて,堅牢なクローズドループ実行を実現する推論フェーズアセンブリという,2つのフェーズを統一する。
タスクを再利用可能なプリミティブに分解することで、PrimitiveVLAはタスク固有の軌道ではなく、VLAモデルで不変な動作パターンを学習することができる。
大規模な実験により、我々のフレームワークはデータ効率を向上し、目に見えないタスクや長時間のタスクにまたがる優れたゼロショットの一般化を実現している。
関連論文リスト
- $M^2$-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills [25.17452377052361]
現在のVision-Language-Action(VLA)モデルは、主にエンドツーエンドの微調整に依存している。
本稿では,汎用VLMがロボット操作の強力なバックボーンとして機能できることを実証するM2$-VLAを提案する。
これを解決するために、密接な意味的特徴からタスククリティカル情報を選択的に抽出するMixture of Layers(MoL)戦略を導入する。
論文 参考訳(メタデータ) (2026-04-27T08:44:12Z) - DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies [75.40720507604647]
視覚言語アクション(VLA)モデルは、比較的単純なタスクの多岐にわたるジェネラリストポリシーとして、非常に有望である。
本稿では,任意の指導源を活用することで,このようなタスクにおけるVLA性能を向上させるフレキシブルなフレームワークを提案する。
本研究では,3次元空間内に存在するタスク特異的アトラクタとレペラを用いて,自然に何種類のガイダンスを微分可能エネルギー関数として表現できるかを示す。
論文 参考訳(メタデータ) (2026-03-09T17:18:13Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-12-05T13:21:05Z) - MAPS: Preserving Vision-Language Representations via Module-Wise Proximity Scheduling for Better Vision-Language-Action Generalization [30.871663465403625]
我々は、視覚・言語・アクション(VLA)モデルのための、最初の堅牢な微調整フレームワークであるMAPSを紹介する。
系統解析により,安定性と柔軟性のバランスをとるために近接制約を緩和する経験的順序を明らかにする。
MAPSはこの緩和を線形にスケジュールし、視覚エンコーダは事前訓練された事前に近づき、アクション指向の言語層はより自由に適応できる。
論文 参考訳(メタデータ) (2025-11-25T03:39:37Z) - LLaDA-VLA: Vision Language Diffusion Action Models [23.653152301133925]
自己回帰モデルとは異なるパラダイムである仮面拡散モデルは、テキスト生成やマルチモーダルアプリケーションにおける競合性能を実証し始めている。
LLaDA-VLAは,ロボット操作のための事前訓練d-VLM上に構築された最初のビジョン・ランゲージ・ディフュージョン・アクションモデルである。
論文 参考訳(メタデータ) (2025-09-08T17:45:40Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [48.15777554876988]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。