論文の概要: HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies
- arxiv url: http://arxiv.org/abs/2512.05693v1
- Date: Fri, 05 Dec 2025 13:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.032404
- Title: HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies
- Title(参考訳): HiMoE-VLA:ジェネラリストのビジョン・ランゲージ・アクション・ポリシーのための階層的ミックス・オブ・エクスプロイト
- Authors: Zhiying Du, Bei Liu, Yaobo Liang, Yichao Shen, Haidong Cao, Xiangyu Zheng, Zhiyuan Feng, Zuxuan Wu, Jiaolong Yang, Yu-Gang Jiang,
- Abstract要約: 具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
- 参考スコア(独自算出の注目度): 83.41714103649751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of foundation models for embodied intelligence critically depends on access to large-scale, high-quality robot demonstration data. Recent approaches have sought to address this challenge by training on large collections of heterogeneous robotic datasets. However, unlike vision or language data, robotic demonstrations exhibit substantial heterogeneity across embodiments and action spaces as well as other prominent variations such as senor configurations and action control frequencies. The lack of explicit designs for handling such heterogeneity causes existing methods to struggle with integrating diverse factors, thereby limiting their generalization and leading to degraded performance when transferred to new settings. In this paper, we present HiMoE-VLA, a novel vision-language-action (VLA) framework tailored to effectively handle diverse robotic data with heterogeneity. Specifically, we introduce a Hierarchical Mixture-of-Experts (HiMoE) architecture for the action module which adaptively handles multiple sources of heterogeneity across layers and gradually abstracts them into shared knowledge representations. Through extensive experimentation with simulation benchmarks and real-world robotic platforms, HiMoE-VLA demonstrates a consistent performance boost over existing VLA baselines, achieving higher accuracy and robust generalization across diverse robots and action spaces. The code and models are publicly available at https://github.com/ZhiyingDu/HiMoE-VLA.
- Abstract(参考訳): インテリジェンスを具現化するための基礎モデルの開発は、大規模で高品質なロボットデモデータへのアクセスに依存している。
最近のアプローチでは、異種ロボットデータセットの大規模なコレクションをトレーニングすることで、この問題に対処しようとしている。
しかし、視覚や言語データと異なり、ロボットによるデモンストレーションは、体感や行動制御の周波数といった他の顕著な変化と同様に、実施地や行動空間にまたがるかなりの不均一性を示す。
このような不均一性を扱うための明示的な設計の欠如は、既存の手法が様々な要素を統合するのに苦労する原因となり、それによって一般化が制限され、新しい設定に移行すると性能が低下する。
本稿では,多種多様なロボットデータと不均一性を効果的に扱える新しい視覚言語アクション(VLA)フレームワークであるHiMoE-VLAを提案する。
具体的には,階層的なHiMoE(Hierarchical Mixture-of-Experts)アーキテクチャを導入する。
HiMoE-VLAはシミュレーションベンチマークと実世界のロボットプラットフォームによる広範な実験を通じて、既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、多様なロボットやアクションスペースにわたって高い精度と堅牢な一般化を実現している。
コードとモデルはhttps://github.com/ZhiyingDu/HiMoE-VLAで公開されている。
関連論文リスト
- X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model [62.21943953611646]
Vision-Language-Actionモデルは、多様なロボットプラットフォームにわたる効果的なトレーニングに依存している。
最小限のパラメータを付加したソフトプロンプト手法を提案する。
0.9Bのインスタンス化-X-VLA-0.9Bは,ベンチマークの全体にわたってSOTA性能を同時に達成することを示す。
論文 参考訳(メタデータ) (2025-10-11T16:20:17Z) - Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey [45.10095869091538]
膨大な画像テキストデータセットに基づいて事前訓練されたLarge Vision-Language Models (VLM) 上に構築されたVLAモデルが、トランスフォーメーションパラダイムとして登場した。
この調査は、ロボット操作のための大規模なVLMベースのVLAモデルの、最初の体系的で分類指向のレビューを提供する。
論文 参考訳(メタデータ) (2025-08-18T16:45:48Z) - UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [34.42046035740954]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。
我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。
複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-05-09T15:11:13Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。