論文の概要: AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots
- arxiv url: http://arxiv.org/abs/2603.07648v1
- Date: Sun, 08 Mar 2026 14:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.000358
- Title: AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots
- Title(参考訳): AtomicVLA:ロボットにおける原子スキル学習の可能性を解き放つ
- Authors: Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang,
- Abstract要約: 現実世界のロボットタスクは、長い水平、多段階の問題解決を伴い、継続的なスキル獲得のために一般化を必要とすることが多い。
我々は、タスクレベルの計画、アトミックスキルの抽象化、きめ細かいアクションを共同で生成する統合計画実行フレームワークAtomicVLAを提案する。
シミュレーションでは、AtomicVLAはLIBEROで$_0$2.4%、LIBERO-LONGで10%、CALVINで$_0$と$_0.5$0.22、平均タスク長0.25よりパフォーマンスが良い。
- 参考スコア(独自算出の注目度): 92.18094199070693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Visual-Language-Action (VLA) models have shown promising potential for robotic manipulation tasks. However, real-world robotic tasks often involve long-horizon, multi-step problem-solving and require generalization for continual skill acquisition, extending beyond single actions or skills. These challenges present significant barriers for existing VLA models, which use monolithic action decoders trained on aggregated data, resulting in poor scalability. To address these challenges, we propose AtomicVLA, a unified planning-and-execution framework that jointly generates task-level plans, atomic skill abstractions, and fine-grained actions. AtomicVLA constructs a scalable atomic skill library through a Skill-Guided Mixture-of-Experts (SG-MoE), where each expert specializes in mastering generic yet precise atomic skills. Furthermore, we introduce a flexible routing encoder that automatically assigns dedicated atomic experts to new skills, enabling continual learning. We validate our approach through extensive experiments. In simulation, AtomicVLA outperforms $π_{0}$ by 2.4\% on LIBERO, 10\% on LIBERO-LONG, and outperforms $π_{0}$ and $π_{0.5}$ by 0.22 and 0.25 in average task length on CALVIN. Additionally, our AtomicVLA consistently surpasses baselines by 18.3\% and 21\% in real-world long-horizon tasks and continual learning. These results highlight the effectiveness of atomic skill abstraction and dynamic expert composition for long-horizon and lifelong robotic tasks. The project page is \href{https://zhanglk9.github.io/atomicvla-web/}{here}.
- Abstract(参考訳): VLA(Visual-Language-Action)モデルの最近の進歩は、ロボット操作タスクの有望な可能性を示している。
しかし、現実のロボットタスクは、長い水平で多段階の問題解決を伴い、単一のアクションやスキルを超えて、継続的なスキル獲得の一般化を必要とすることが多い。
これらの課題は、集約されたデータに基づいてトレーニングされたモノリシックなアクションデコーダを使用する既存のVLAモデルに重大な障壁をもたらし、スケーラビリティが低下する。
これらの課題に対処するために、タスクレベルの計画、アトミックスキルの抽象化、きめ細かいアクションを共同で生成する統合計画実行フレームワークAtomicVLAを提案する。
AtomicVLAはSG-MoE(Skill-Guided Mixture-of-Experts)を通じてスケーラブルなアトミックスキルライブラリを構築する。
さらに、専用原子エキスパートを新しいスキルに自動的に割り当てるフレキシブルなルーティングエンコーダを導入し、継続的な学習を可能にした。
我々は広範な実験を通じてアプローチを検証する。
シミュレーションにおいて、AtomicVLAはLIBEROで$π_{0}$ 2.4\%、LIBERO-LONGで10\%、CALVINで$π_{0}$ と $π_{0.5}$ 0.22 と 0.25 を上回る。
さらに、私たちのAtomicVLAは、現実世界の長距離タスクや継続的な学習において、ベースラインを18.3\%、21\%に一貫して超えています。
これらの結果は,長期的・生涯にわたるロボット作業における原子スキル抽象化と動的専門家構成の有効性を浮き彫りにした。
プロジェクトページは \href{https://zhanglk9.github.io/atomicvla-web/}{here} である。
関連論文リスト
- Scaling Tasks, Not Samples: Mastering Humanoid Control through Multi-Task Model-Based Reinforcement Learning [49.82882141491629]
効果的なオンライン学習は、タスク毎のサンプル数ではなく、タスクの回数を拡大すべきである、と我々は主張する。
この体制はモデルに基づく強化学習の構造上の利点を明らかにしている。
我々は、オンライン学習のためのサンプル効率のよいマルチタスクアルゴリズムである textbfEfficientZero-Multitask (EZ-M) を用いて、このアイデアをインスタンス化する。
論文 参考訳(メタデータ) (2026-03-02T05:07:43Z) - LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies [54.150202739999806]
LiLo-VLAは、新しいロングホライゾンタスクに対してゼロショットのモジュラリティをトレーニングすることなく実現できるモジュラーフレームワークである。
LIBERO-Long++とUltra-Longという2つの課題からなる21タスクのシミュレーションベンチマークを導入する。
これらのシミュレーションでは、LiLo-VLAは平均成功率69%を達成し、Pi0.5を41%、OpenVLA-OFTを67%上回った。
論文 参考訳(メタデータ) (2026-02-25T03:33:39Z) - Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering [59.18634614089481]
超長距離機械学習工学(MLE)を習得する自律エージェントML-Master 2.0を提案する。
文脈管理を認知的蓄積のプロセスとして考えることで、階層的認知キャッシング(HCC)を導入する。
HCCは、エージェントが短期的な実験戦略から即時実行を分離することを可能にする。
オープンAIのMLE-Benchを24時間予算で評価すると、ML-Master 2.0は56.44%の最先端のメダルを獲得した。
論文 参考訳(メタデータ) (2026-01-15T13:52:04Z) - Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning [56.129822832095726]
AdaMoEはMixture-of-Experts (MoE)アーキテクチャであり、密度の高いVLAモデルから事前訓練された重量を継承する。
実世界の実験で21.5%の大幅な改善が、ロボット操作タスクの実用的効果を実証している。
論文 参考訳(メタデータ) (2025-10-16T04:52:57Z) - DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。
現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。
本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文 参考訳(メタデータ) (2025-02-09T11:25:56Z) - Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks [85.56153200251713]
長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2021-09-21T16:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。