論文の概要: GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning
- arxiv url: http://arxiv.org/abs/2602.04315v1
- Date: Wed, 04 Feb 2026 08:30:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.4345
- Title: GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning
- Title(参考訳): GeneralVLA:知識誘導軌道計画を用いた一般化可能なビジョン・ランゲージ・アクションモデル
- Authors: Guoqing Ma, Siheng Wang, Zeyu Zhang, Shan Yu, Hao Tang,
- Abstract要約: GeneralVLAは階層型視覚言語アクション(VLA)モデルであり、基礎モデルの一般化をより効果的に活用することができる。
GeneralVLAは14タスクの軌道生成に成功し、VoxPoserのような最先端の手法を著しく上回った。
- 参考スコア(独自算出の注目度): 20.646039344274556
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large foundation models have shown strong open-world generalization to complex problems in vision and language, but similar levels of generalization have yet to be achieved in robotics. One fundamental challenge is that the models exhibit limited zero-shot capability, which hampers their ability to generalize effectively to unseen scenarios. In this work, we propose GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning), a hierarchical vision-language-action (VLA) model that can be more effective in utilizing the generalization of foundation models, enabling zero-shot manipulation and automatically generating data for robotics. In particular, we study a class of hierarchical VLA model where the high-level ASM (Affordance Segmentation Module) is finetuned to perceive image keypoint affordances of the scene; the mid-level 3DAgent carries out task understanding, skill knowledge, and trajectory planning to produce a 3D path indicating the desired robot end-effector trajectory. The intermediate 3D path prediction is then served as guidance to the low-level, 3D-aware control policy capable of precise manipulation. Compared to alternative approaches, our method requires no real-world robotic data collection or human demonstration, making it much more scalable to diverse tasks and viewpoints. Empirically, GeneralVLA successfully generates trajectories for 14 tasks, significantly outperforming state-of-the-art methods such as VoxPoser. The generated demonstrations can train more robust behavior cloning policies than training with human demonstrations or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe GeneralVLA can be the scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Code: https://github.com/AIGeeksGroup/GeneralVLA. Website: https://aigeeksgroup.github.io/GeneralVLA.
- Abstract(参考訳): 大規模な基礎モデルは、視覚と言語における複雑な問題に対して、強力なオープンワールドの一般化を示してきたが、ロボット工学では、同様のレベルの一般化が達成されていない。
基本的な課題の1つは、モデルが制限されたゼロショット能力を示すことであり、それは、目に見えないシナリオに効果的に一般化する能力を妨げている。
本稿では,基礎モデルの一般化を効果的に活用し,ゼロショット操作を可能にし,ロボットのデータを自動生成する,階層型視覚言語行動(VLA)モデルであるGeneralVLAを提案する。
特に,高レベルASM(Affordance Segmentation Module)を微調整してシーンのキーポイントの余裕を知覚する階層型VLAモデルについて検討し,中間レベル3DAgentではタスク理解,スキル知識,軌道計画を行い,ロボットのエンドエフェクタ軌道を示す3Dパスを生成する。
中間の3D経路予測は、精密な操作が可能な低レベルな3D対応制御ポリシーへのガイダンスとして提供される。
代替手法と比較して,本手法では実世界のロボットデータ収集や人間の実演は必要とせず,多様なタスクや視点に対してはるかにスケーラブルである。
実証的に、GeneralVLAは14タスクの軌道生成に成功し、VoxPoserのような最先端の手法よりも大幅に優れている。
生成されたデモは、人間のデモやVoxPoser、Scaling-up、Code-As-Policiesによって生成されたデータから、より堅牢な行動クローンポリシをトレーニングすることができる。
GeneralVLAは、ロボット工学のためのデータ生成と、ゼロショット設定で新しいタスクを解くためのスケーラブルな方法であると考えています。
コード:https://github.com/AIGeeksGroup/GeneralVLA。
ウェブサイト:https://aigeeksgroup.github.io/GeneralVLA
関連論文リスト
- VideoVLA: Video Generators Can Be Generalizable Robot Manipulators [86.70243911696616]
ロボット操作の一般化は、オープンワールド環境におけるロボットの展開に不可欠である。
本稿では,大容量ビデオ生成モデルをロボットVLAマニピュレータに変換する可能性を探る,シンプルなアプローチであるVideoVLAを提案する。
論文 参考訳(メタデータ) (2025-12-07T18:57:15Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。