論文の概要: PHASER: Phase-Aware and Semantic Experience Replay for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.03598v1
- Date: Tue, 02 Jun 2026 13:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.009655
- Title: PHASER: Phase-Aware and Semantic Experience Replay for Vision-Language-Action Models
- Title(参考訳): PHASER:ビジョン・ランゲージ・アクションモデルのための位相認識とセマンティック・エクスペリエンス・リプレイ
- Authors: Ziyang Chen, Shaoguang Wang, Weiyu Guo, Qianyi Cai, He Zhang, Pengteng Li, Yiren Zhao, Yandong Guo,
- Abstract要約: 本稿では,アーキテクチャに依存しない連続学習フレームワークPHASERを紹介する。
フェーズRは、すべてのサブスキルに等しいメモリサポートを保証するために、フェーズ中心のキャパシティアロケーションを使用する。
また、教師なし動作信号変化点検出とVLMに基づくセマンティック検証を組み合わせた軽量パイプラインであるAuto-PCを統合する。
- 参考スコア(独自算出の注目度): 34.954808072081676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have achieved remarkable success in language-conditioned robotic manipulation. However, deploying these models in open-ended environments requires continuously acquiring novel skills, a process that inevitably triggers severe catastrophic forgetting of previously learned behaviors. While experience replay (ER) serves as a standard mitigating strategy, naive uniform sampling fundamentally misaligns with the temporal characteristics of manipulation trajectories. It systematically under-samples brief but causally critical sub-skills, leading to phase starvation, and completely overlooks the varying degrees of forgetting across historical tasks. To overcome these limitations, we introduce PHASER, an architecture-agnostic continual learning framework. PHASER employs a phase-centric capacity allocation to guarantee equal memory support for all sub-skills, coupled with a multi-modal interference routing strategy that dynamically prioritizes historical phases at high risk of forgetting. Furthermore, to enable fully autonomous lifelong adaptation, we integrate Auto-PC, a lightweight pipeline combining unsupervised action-signal change-point detection with VLM-based semantic verification to extract temporal boundaries without intensive manual supervision. Evaluated across three VLA backbones on LIBERO continual learning suites, PHASER yields substantial empirical improvements, increasing Average Success Rate (ASR) by up to 31% over matched-budget ER and achieving an 87.8% final ASR on the LIBERO-Goal CL setting.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、言語条件のロボット操作において顕著な成功を収めた。
しかし、これらのモデルをオープンエンド環境にデプロイするには、新しいスキルを継続的に習得する必要がある。
経験的リプレイ(ER)が標準的な緩和戦略として機能する一方で、直感的一様サンプリングは、操作軌跡の時間的特性と根本的に違っている。
体系的には、短いが因果的に重要なサブスキルをアンダーサンプし、段階的飢餓につながる。
これらの制約を克服するために,アーキテクチャに依存しない連続学習フレームワークPHASERを導入する。
PHASERは、すべてのサブスキルに等しいメモリサポートを保証するために、フェーズ中心のキャパシティアロケーションを採用し、また、歴史的フェーズを動的に優先順位付けするマルチモーダル干渉ルーティング戦略と相まって、忘れるリスクが高い。
さらに、完全自律的な生涯適応を可能にするために、VLMに基づく意味的検証と教師なし動作信号変化点検出を組み合わせた軽量パイプラインであるAuto-PCを統合し、手動による集中的な監督なしに時間境界を抽出する。
PHASERは、LIBERO連続学習スイート上の3つのVLAバックボーンで評価され、ASR(Average Success Rate)を最大31%増加させ、LIBERO-Goal CL設定で87.8%の最終的なASRを達成する。
関連論文リスト
- LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models [13.30873593845724]
LoopVLAは、表現の洗練、アクション予測、十分性推定を学習する、リカレントなVision-Language-Actionアーキテクチャである。
この結果から,LoopVLAはVLAポリシーの効率性向上のフロンティアを推し進め,パラメータを45%削減し,推論スループットを最大1.7倍向上させることを示した。
論文 参考訳(メタデータ) (2026-05-11T03:51:22Z) - PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations [66.94988600664574]
我々は,目標達成型強化学習を通じて事前学習を再構築するVLA基盤モデルであるtextbfPRTS(textbfPrimitive textbfReasoning and textbfTasking textbfSystem)を提案する。
論文 参考訳(メタデータ) (2026-04-30T06:14:02Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Towards Long-Lived Robots: Continual Learning VLA Models via Reinforcement Fine-Tuning [34.29473529235131]
LifeLong-RFTは、VLAモデルの簡易かつ効果的な強化微細チューニング(RFT)戦略である。
LifeLong-RFTは、チャンキングレベルのオンライン強化学習と、提案した多次元プロセスリワード(MDPR)機構を統合する。
本手法は,SFTよりも平均成功率を22%向上させると同時に,トレーニングデータの20%のみを用いて,新たなタスクに効果的に適応する。
論文 参考訳(メタデータ) (2026-02-11T04:05:03Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - PALM: Progress-Aware Policy Learning via Affordance Reasoning for Long-Horizon Robotic Manipulation [27.791908160098625]
PALMは、インタラクション中心のアベイランス推論とサブタスクプログレスキューに関するポリシー学習を構築する。
Palmはシミュレーションや実世界の実験において、一貫してベースラインを上回っている。
論文 参考訳(メタデータ) (2026-01-11T21:00:58Z) - On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning [61.38273866396522]
ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
論文 参考訳(メタデータ) (2026-01-11T01:51:30Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Self-Improving Vision-Language-Action Models with Data Generation via Residual RL [29.682761652941963]
Probe, Learn, Distill (PLD)は3段階のプラグイン・アンド・プレイフレームワークで、視覚言語アクションモデルを改善する。
PLDはLIBEROでほぼ飽和した99%のタスク成功、SimplerEnvで50%以上、実世界のFrankaとYAMのアーム操作タスクで100%成功している。
論文 参考訳(メタデータ) (2025-10-30T06:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。