論文の概要: $M^2$-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills
- arxiv url: http://arxiv.org/abs/2604.24182v1
- Date: Mon, 27 Apr 2026 08:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.860806
- Title: $M^2$-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills
- Title(参考訳): M^2$-VLA:レイヤミックスとメタスキルによる一般化可能な操作のためのビジョンランゲージモデルの構築
- Authors: Siyao Xiao, Yuhong Zhang, Zhifang Liu, Zihan Gao, Jingye Zhang, Sinwai Choo, Dake Zhong, Mengzhe Wang, Xiao Lin, Xianfeng Zhou, Jia Jia, Haoqian Wang,
- Abstract要約: 現在のVision-Language-Action(VLA)モデルは、主にエンドツーエンドの微調整に依存している。
本稿では,汎用VLMがロボット操作の強力なバックボーンとして機能できることを実証するM2$-VLAを提案する。
これを解決するために、密接な意味的特徴からタスククリティカル情報を選択的に抽出するMixture of Layers(MoL)戦略を導入する。
- 参考スコア(独自算出の注目度): 25.17452377052361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Vision-Language-Action (VLA) models predominantly rely on end-to-end fine-tuning. While effective, this paradigm compromises the inherent generalization capabilities of Vision-Language Models (VLMs) and incurs catastrophic forgetting. To address these limitations, we propose $M^2$-VLA, which demonstrates that a generalized VLM is able to serve as a powerful backbone for robotic manipulation directly. However, it remains a key challenge to bridge the gap between the high-level semantic understanding of VLMs and the precise requirements of robotic control. To overcome this, we introduce the Mixture of Layers (MoL) strategy that selectively extracts task-critical information from dense semantic features. Furthermore, to facilitate efficient trajectory learning under constrained model capacity, we propose a Meta Skill Module (MSM) that integrates strong inductive biases. Extensive experiments in both simulated and real-world environments demonstrate the effectiveness of our approach. Furthermore, generalization and ablation studies validate the architecture's zero-shot capabilities and confirm the contribution of each key component. Our code and pre-trained models will be made publicly available.
- Abstract(参考訳): 現在のVision-Language-Action(VLA)モデルは、主にエンドツーエンドの微調整に依存している。
効果はあるものの、このパラダイムは視覚言語モデル(VLM)の固有の一般化能力を損なうものであり、破滅的な忘れを招きかねない。
これらの制約に対処するために、一般化されたVLMがロボット操作の強力なバックボーンとして機能できることを実証するM^2$-VLAを提案する。
しかしながら、VLMの高レベルの意味理解とロボット制御の正確な要求とのギャップを埋めることは、依然として重要な課題である。
これを解決するために、密接な意味的特徴からタスククリティカル情報を選択的に抽出するMixture of Layers(MoL)戦略を導入する。
さらに,制約付きモデルキャパシティ下での効率的な軌道学習を容易にするため,強い帰納バイアスを組み込んだメタスキルモジュール(MSM)を提案する。
シミュレーションと実環境の両方における大規模な実験は、我々のアプローチの有効性を実証している。
さらに、一般化とアブレーションの研究は、アーキテクチャのゼロショット能力を検証し、各キーコンポーネントの寄与を確認する。
私たちのコードと事前訓練されたモデルは公開されます。
関連論文リスト
- OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL [1.880672844596704]
VLA(Visual-Language-Action)モデルは、組み込みAIのパラダイムシフトを表している。
既存のフレームワークは、不正確な知覚、準最適マルチモーダル融合、強化学習における不安定性に苦慮している。
提案するOmniVLA-RLは,Mix-of-Transformers(MoT)設計を利用して推論,空間,行動の専門家を統合する新しいアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-20T01:36:58Z) - DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - DAM-VLA: A Dynamic Action Model-Based Vision-Language-Action Framework for Robot Manipulation [21.418782746588263]
DAM-VLAは動的アクションモデルに基づくVision-Language-Actionフレームワークである。
VLM推論と拡散に基づくアームとグリップ制御のためのアクションモデルを統合する。
DAM-VLAは、シミュレーションおよび実世界の設定において最先端のVLA手法よりも優れた成功率を達成する。
論文 参考訳(メタデータ) (2026-03-01T05:16:04Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-12-05T13:21:05Z) - Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert [60.88976842557026]
VLM(Vision-Language Models)は、優れた計画と推論能力を示している。
最近の二重系アプローチは「思考」と「行動」を分離しようとする
一般化可能なアクションエキスパートを中心としたフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-10-04T18:33:27Z) - MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation [24.200547898713126]
MLLM(Multimodal Large Language Models)は、複雑な言語と視覚的データの理解に優れる。
彼らの実世界の展開は、相当な計算とストレージの需要によって妨げられている。
動的LDM層活性化のためのMixture-of-Layers Vision-Language-Action Model (MoLe) アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-03-26T10:05:38Z) - On Fast Adversarial Robustness Adaptation in Model-Agnostic
Meta-Learning [100.14809391594109]
モデルに依存しないメタラーニング(MAML)は、数発の学習において最も成功したメタラーニング手法の1つである。
メタモデルの一般化力にもかかわらず、マルチショット学習においてMDLがいかに敵対的堅牢性を維持することができるかは明らかではない。
本稿では,ラベルなしデータ拡張,高速な攻撃生成,計算量軽微な微調整を可能にする,汎用的かつ最適化が容易なロバストネス正規化メタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。