論文の概要: EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2512.14666v1
- Date: Tue, 16 Dec 2025 18:26:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.833008
- Title: EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models
- Title(参考訳): EVOLVE-VLA:ビジョン・ランゲージ・アクションモデルのための環境フィードバックからの試験時間トレーニング
- Authors: Zechen Bai, Chen Gao, Mike Zheng Shou,
- Abstract要約: VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
- 参考スコア(独自算出の注目度): 57.75717492488268
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Achieving truly adaptive embodied intelligence requires agents that learn not just by imitating static demonstrations, but by continuously improving through environmental interaction, which is akin to how humans master skills through practice. Vision-Language-Action (VLA) models have advanced robotic manipulation by leveraging large language models, yet remain fundamentally limited by Supervised Finetuning (SFT): requiring hundreds of demonstrations per task, rigidly memorizing trajectories, and failing to adapt when deployment conditions deviate from training. We introduce EVOLVE-VLA, a test-time training framework enabling VLAs to continuously adapt through environment interaction with minimal or zero task-specific demonstrations. The key technical challenge is replacing oracle reward signals (unavailable at test time) with autonomous feedback. We address this through a learned progress estimator providing dense feedback, and critically, we design our framework to ``tame'' this inherently noisy signal via two mechanisms: (1) an accumulative progress estimation mechanism smoothing noisy point-wise estimates, and (2) a progressive horizon extension strategy enabling gradual policy evolution. EVOLVE-VLA achieves substantial gains: +8.6\% on long-horizon tasks, +22.0\% in 1-shot learning, and enables cross-task generalization -- achieving 20.8\% success on unseen tasks without task-specific demonstrations training (vs. 0\% for pure SFT). Qualitative analysis reveals emergent capabilities absent in demonstrations, including error recovery and novel strategies. This work represents a critical step toward VLAs that truly learn and adapt, moving beyond static imitation toward continuous self-improvements.
- Abstract(参考訳): 真に適応的なインボディードインテリジェンスを達成するためには、静的なデモンストレーションを模倣するだけでなく、環境相互作用を通じて継続的に改善することで学習するエージェントが必要である。
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行うが、基本的にはスーパービジョンファインタニング(Supervised Finetuning, SFT)によって制限されている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
重要な技術的課題は、オラクル報酬信号(テスト時に利用できない)を自律的なフィードバックで置き換えることである。
本研究は,高密度フィードバックを提供する学習進行推定器を用いてこの問題に対処し,まず,次の2つのメカニズムにより,本手法を 'tame'' に設計する。
EVOLVE-VLAは、長い水平タスクで+8.6\%、一発学習で+22.0\%、タスク固有の実演訓練なしで未確認タスクで20.8\%の成功(vs)を達成できるクロスタスクの一般化を実現している。
0 %であった。
定性的分析は、エラー回復や新しい戦略を含む、デモに欠如する創発的能力を明らかにする。
この作業は、真に学び、適応するVLAへの重要なステップであり、静的な模倣を越えて、継続的自己改善に向かっています。
関連論文リスト
- Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。
本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。
提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文 参考訳(メタデータ) (2025-10-22T16:43:29Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models [49.78447737655287]
VITAはゼロショット値関数学習法であり、テスト時間適応によって両方の能力を増強する。
オフライン強化学習において,VITAのゼロショット値推定が報酬形成に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-11T18:05:33Z) - GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill [25.686589649523587]
シミュレーションエージェントのオープンボキャブラリ物理スキルを学ぶことは、人工知能において重要な課題である。
我々は,手動工学やタスク固有の実演を使わずに,オープン語彙の物理スキル学習を可能にする汎用的な報酬フレームワークであるGROVEを紹介する。
シミュレーションと自然画像の領域ギャップを埋めるために,エージェントのポーズを直接意味的特徴空間に投影する軽量マッパーPose2CLIPを開発した。
論文 参考訳(メタデータ) (2025-04-05T14:44:47Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。