論文の概要: Agentic-VLA: Efficient Online Adaptation for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.22896v1
- Date: Thu, 21 May 2026 15:24:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.030734
- Title: Agentic-VLA: Efficient Online Adaptation for Vision-Language-Action Models
- Title(参考訳): Agentic-VLA:視覚・言語・アクションモデルのための効率的なオンライン適応
- Authors: Ruofan Jin, Zaixi Zhang,
- Abstract要約: VLA(Vision-Language-Action)モデルは、事前訓練された視覚言語表現を活用することで、ロボット操作のための有望なパラダイムとして登場した。
現在のVLA訓練方法は、新しい環境への一般化の低さと、広範囲なデモンストレーションを必要とする訓練効率の低さの2つの限界に悩まされている。
本稿では,3つの重要なイノベーションを通じて,VLAのオンライン適応を可能にするエージェントトレーニングフレームワークであるAgentic-VLAを紹介する。
- 参考スコア(独自算出の注目度): 13.803928398939847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as a promising paradigm for robotic manipulation by leveraging pre-trained vision-language representations. However, current VLA training methods suffer from two critical limitations: poor generalization to novel environments and low training efficiency requiring extensive demonstrations. We introduce Agentic-VLA, an agentic training framework that enables VLAs to efficiently adapt online through three key innovations: (1) Adaptive Reward Synthesis, which dynamically generates and adjusts reward functions based on the VLA's current capabilities and task complexity, decomposing complex tasks into learnable sub-goals for curriculum learning; (2) Language-Guided Exploration, where a critic model provides structured guidance for systematic exploration rather than random sampling; and (3) Experience Memory,which stores and retrieves task-relevant policy weights for warm-starting adaptation to similar tasks. We evaluate Agentic-VLA on the LIBERO benchmark, achieving substantial improvements: +12.3% on long-horizon tasks, +28.5% in 1-shot learning, and enabling cross-task transfer from 0% to 31.2% without task-specific demonstrations. Our framework also demonstrates 2.4x faster convergence compared to existing online adaptation methods. Beyond LIBERO, Agentic-VLA retains its advantage on the dual-arm RoboTwin 2.0 benchmark, including under its randomized Hard setting. These results establish Agentic-VLA as a significant step toward truly adaptive VLA systems capable of continuous learning in deployment.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、事前訓練された視覚言語表現を活用することで、ロボット操作のための有望なパラダイムとして登場した。
しかしながら、現在のVLAトレーニング手法には、新しい環境への一般化の低さと、広範なデモンストレーションを必要とする訓練効率の低さの2つの限界がある。
本稿では,VLAを効果的にオンライン化するためのエージェントトレーニングフレームワークであるAgentic-VLAを紹介する。(1)VLAの現在の能力とタスク複雑性に基づいて報酬関数を動的に生成・調整し,複雑なタスクを学習可能なサブゴールに分解するAdaptive Reward Synthesis,(2)批判モデルがランダムなサンプリングではなく体系的な探索のための構造化ガイダンスを提供するLanguage-Guided Exploration,(3)類似タスクへのウォームスタートのためのタスク関連ポリシー重みを格納・取得するExperience Memory,である。
LIBEROベンチマークでAgenic-VLAを評価し,長期タスクで+12.3%,1ショット学習で+28.5%,タスク固有の実演なしで0%から31.2%のクロスタスク転送を実現した。
また,既存のオンライン適応手法に比べて2.4倍の収束性を示す。
LIBERO以外にも、Agentic-VLAはランダム化されたハード設定を含むデュアルアームのRoboTwin 2.0ベンチマークにおいてその優位性を維持している。
これらの結果から、Agentic-VLAは、デプロイにおいて継続的な学習が可能な真に適応的なVLAシステムに向けた重要なステップとして確立された。
関連論文リスト
- AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning [61.38273866396522]
ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
論文 参考訳(メタデータ) (2026-01-11T01:51:30Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - Sample-Efficient Robot Skill Learning for Construction Tasks: Benchmarking Hierarchical Reinforcement Learning and Vision-Language-Action VLA Model [9.025728945376468]
本研究は,建設ロボットに新しいスキルを教えるための2つの主要なアプローチを評価する。
目標は、タスクパフォーマンスと、実際のジョブに各アプローチをデプロイするために必要な実践的労力の両方を理解することです。
論文 参考訳(メタデータ) (2025-12-16T02:56:13Z) - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。
現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。
本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文 参考訳(メタデータ) (2025-02-09T11:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。