論文の概要: MetaVLA: Unified Meta Co-training For Efficient Embodied Adaption
- arxiv url: http://arxiv.org/abs/2510.05580v1
- Date: Tue, 07 Oct 2025 04:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.103638
- Title: MetaVLA: Unified Meta Co-training For Efficient Embodied Adaption
- Title(参考訳): MetaVLA: 効率的な身体適応のための統一されたメタコトレーニング
- Authors: Chen Li, Zhantao Yang, Han Zhang, Fangyi Chen, Chenchen Zhu, Anudeepsekhar Bolimera, Marios Savvides,
- Abstract要約: VLA(Vision-Language-Action)モデルは、具体的推論において有望であるが、真の一般主義者には遠く及ばない。
効率的かつスケーラブルなアライメントのための統合されたバックボーン・ポストトレーニングフレームワークであるMetaVLAを提案する。
- 参考スコア(独自算出の注目度): 16.697611565628954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models show promise in embodied reasoning, yet remain far from true generalists-they often require task-specific fine-tuning, and generalize poorly to unseen tasks. We propose MetaVLA, a unified, backbone-agnostic post-training framework for efficient and scalable alignment. MetaVLA introduces Context-Aware Meta Co-Training, which consolidates diverse target tasks into a single fine-tuning stage while leveraging structurally diverse auxiliary tasks to improve in-domain generalization. Unlike naive multi-task SFT, MetaVLA integrates a lightweight meta-learning mechanism-derived from Attentive Neural Processes-to enable rapid adaptation from diverse contexts with minimal architectural change or inference overhead. On the LIBERO benchmark, MetaVLA with six auxiliary tasks outperforms OpenVLA by up to 8.0% on long-horizon tasks, reduces training steps from 240K to 75K, and cuts GPU time by ~76%. These results show that scalable, low-resource post-training is achievable-paving the way toward general-purpose embodied agents. Code will be available.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、具体的推論における約束を示すが、真のジェネラリストから遠く離れている。
効率的な,スケーラブルなアライメントを実現するための,統合されたバックボーンに依存しないポストトレーニングフレームワークであるMetaVLAを提案する。
MetaVLAはContext-Aware Meta Co-Trainingを導入し、多様なターゲットタスクを単一の微調整ステージに統合し、構造的に多様な補助タスクを活用してドメイン内一般化を改善する。
ナイーブなマルチタスクSFTとは異なり、MetaVLAはAttentive Neural Processesから派生した軽量なメタ学習メカニズムを統合し、アーキテクチャ変更や推論オーバーヘッドを最小限に抑えたさまざまなコンテキストからの迅速な適応を可能にする。
LIBEROベンチマークでは、6つの補助タスクを持つMetaVLAがOpenVLAを最大8.0%上回り、トレーニングステップを240Kから75Kに削減し、GPU時間を約76%削減した。
これらの結果は、スケーラブルで低リソースなポストトレーニングは、汎用的なエンボディエージェントへの道を切り開くことができることを示している。
コードは利用可能です。
関連論文リスト
- InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation [43.83789393525928]
InstructVLAは、大規模な視覚言語モデル(VLM)の柔軟な推論を保存し、主要な操作性能を提供するエンド・ツー・エンドの視覚言語モデルである。
InstructVLAは、新しいトレーニングパラダイムであるVision-Language-Action Instruction Tuning (VLA-IT)を導入している。
ドメイン内のSimplerEnvタスクでは、InstructVLAはSpatialVLAよりも30.5%改善されている。
論文 参考訳(メタデータ) (2025-07-23T13:57:06Z) - Learning to Learn with Contrastive Meta-Objective [48.27877062976768]
本稿では,メタトレーニングにおけるタスクアイデンティティのさらなる監視として活用することを提案する。
提案したConMLは、対照的なメタオブジェクトの評価と最適化を行っている。
我々は、ConMLが既存のメタ学習モデルだけでなく、既存のメタ学習モデルとシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2024-10-08T12:22:10Z) - MAML-en-LLM: Model Agnostic Meta-Training of LLMs for Improved In-Context Learning [43.512739869120125]
大規模言語モデル(LLM)のメタトレーニング手法であるMAML-en-LLMを提案する。
MAML-en-LLMは、解離したタスクでうまく機能するだけでなく、目に見えないタスクに適応する真の一般化可能なパラメータを学習することができる。
我々は、MAML-en-LLMが、目に見えないドメインと見えないドメインのトレーニングデータが少ない設定において、ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-19T04:49:42Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - MetaICL: Learning to Learn In Context [87.23056864536613]
そこで我々は,メタICLというメタトレーニングフレームワークを紹介した。このフレームワークでは,事前学習された言語モデルが,大量のトレーニングタスクに対してコンテキスト内学習を行うように調整されている。
その結果,MetaICLは,目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し,ほぼ8倍のパラメータを持つモデルよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2021-10-29T17:42:08Z) - Structured Prediction for Conditional Meta-Learning [44.30857707980074]
構造化予測を用いた条件付きメタラーニングの新しい視点を提案する。
タスク適応型構造化メタラーニング(TASML: Task-Adaptive Structured Meta-learning)は,タスク固有目的関数を生成する基本的フレームワークである。
実験により,TASMLは既存のメタラーニングモデルの性能を向上し,ベンチマークデータセットの最先端性を上回った。
論文 参考訳(メタデータ) (2020-02-20T15:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。