論文の概要: Action with Visual Primitives
- arxiv url: http://arxiv.org/abs/2605.22183v2
- Date: Sun, 24 May 2026 02:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.951778
- Title: Action with Visual Primitives
- Title(参考訳): ビジュアルプリミティブによるアクション
- Authors: Weilong Guo, Yuchen Wang, Renping Zhou, Yunfeng Zhang, Rui Fang, Yuyang Pang, Wenda Xu, Gao Huang,
- Abstract要約: VLA(Vision-Language-Action)モデルは、汎用的なロボット操作のための有望なパラダイムとして登場した。
AVP(Action with Visual Primitives)は、このビジュアルプリミティブ中心のインターフェースを実装したエンドツーエンドアーキテクチャである。
AVP は pi_0.5 よりも 27.61% 向上し,近年の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 36.230909065494345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as a promising paradigm for generalist robotic manipulation. A common design in current architectures maps language instructions and visual observations to actions in a single forward pass. While conceptually simple, this formulation entangles instruction comprehension, spatial scene understanding, and motor control within a single learning objective. As a result, the action expert must implicitly relearn cognitive and perceptual capabilities already present in the pretrained VLM, which can limit both learning efficiency and generalization. We introduce AVP (Action with Visual Primitives), an end-to-end architecture that implements this visual-primitive-centric interface: the VLM infers the next-stage target and emits visual-primitive tokens that condition a flow-matching action expert, with supervision derived from end-effector kinematics. Real-robot experiments on general pick-and-place tasks show that AVP improves the success rate by 27.61% over pi_0.5 and outperforms other recent methods, with consistent gains in data efficiency, spatial-compositional generalization, and object-level transfer.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、汎用的なロボット操作のための有望なパラダイムとして登場した。
現在のアーキテクチャにおける一般的な設計は、言語命令と視覚的な観察を単一のフォワードパスのアクションにマッピングするものである。
概念的には単純ではあるが、この定式化は1つの学習対象内での教示理解、空間的シーン理解、運動制御を絡ませる。
結果として、アクションエキスパートは、学習効率と一般化の両方を制限することができる、すでに訓練済みのVLMに存在する認知と知覚能力を暗黙的に再学習する必要がある。
VLMは次の段階のターゲットを推論し、フローマッチングアクションエキスパートを条件とした視覚的原始トークンを出力し、エンドエフェクタ・キネマティクスから指導する。
一般的なピック・アンド・プレイス・タスクにおける実ロボット実験は、AVPがpi_0.5よりも27.61%向上し、データ効率、空間合成の一般化、オブジェクトレベルの転送において一貫した利得で他の手法より優れていることを示している。
関連論文リスト
- GesVLA: Gesture-Aware Vision-Language-Action Model Embedded Representations [19.347332945780273]
VLA(Vision-Language-Action)モデルは、知覚と行動の統一による汎用ロボット操作の強力な可能性を示している。
ジェスチャーを並列命令として導入し,GesVLA(Gesture-Aware Vision-Language-Action Model)を提案する。
実験結果から,ジェスチャを組み込むことにより,目標の接地精度と人間とロボットの相互作用効率が一貫した改善が得られた。
論文 参考訳(メタデータ) (2026-05-21T17:57:44Z) - BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model [44.72361174037017]
VLA(Vision-Language-Action)モデルは、VLM(Large Vision Language Models)を利用して、命令と視覚入力を共同で解釈することで、大きなブレークスルーを達成した。
視覚トークンの大幅な増加、特にマルチビュー入力は、リアルタイムロボット操作に深刻な課題をもたらす。
VLAモデルに特化して設計された動的トークンプルーニングフレームワークであるBFA++を提案する。
論文 参考訳(メタデータ) (2026-02-24T05:31:52Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - ConLA: Contrastive Latent Action Learning from Human Videos for Robotic Manipulation [27.54751123419347]
人間のビデオからロボットポリシーを学習するための教師なし事前学習フレームワークであるConLAを提案する。
人間のビデオのみに事前学習を行うことで、実際のロボット軌道事前学習で得られた性能を初めて上回ります。
論文 参考訳(メタデータ) (2026-01-31T06:40:57Z) - Learning to See and Act: Task-Aware View Planning for Robotic Manipulation [88.37482534484627]
Task-Aware View Planning (TAVP)は、アクティブなビュープランニングとタスク固有の表現学習を統合するために設計されたフレームワークである。
提案したTAVPモデルは、最先端の固定ビューアプローチよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-08-07T09:21:20Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。