Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery
Abstractの概要
Sentinel-VLAは、ロボットマニピュレーション中に推論(計画、サブタスク更新、またはエラー回復)が必要なタイミングを判断するアクティブステータスモニターモジュールを組み込んだメタ認知型ビジョン言語行動モデルである。ステータスが「Normal」と分類された場合、モデルは既存の思考メモリを再利用し直接行動を出力することで、計算オーバーヘッドを1アクションあたり13msに削減する。学習には、確率的摂動を用いてエラー回復軌跡とアノテーションを自動合成するEC-Genパイプラインが使用され、44のRLBenchタスクにわたる260万以上の遷移を含むデータセットが生成される。また、壊滅的忘却を軽減しながら能力を拡張するために、直交継続アダプター(OC-Adapter)を用いた自己進化型継続学習(SECL)が導入されている。実験はRLBench、LIBERO-LONG、およびPiperロボットアームを用いた実世界マニピュレーションタスクで実施されている。
新規性
本論文の主な貢献は、常時オンの思考連鎖や外部補正モジュールに代わり、オンデマンド推論とエラー回復のための独立したステータスモニターエキスパートを統合した統一VLAアーキテクチャである。また、専門家軌跡への確率的摂動によりエラー回復学習データを自動合成するEC-Genパイプラインと、壊滅的忘却を防ぐために新しいアダプター更新を既学習パラメータ空間に直交する方向に制約する直交継続アダプターも導入されている。
成果
Sentinel-VLAは、RLBench既知タスクで63.5%、未知タスクで51.3%、LIBERO-LONGで90.7%、実世界タスクで60.0%を達成し、全設定でPI0(それぞれ57.8%、42.0%、85.2%、46.0%)を上回った。ステータスモニターはシミュレーションで97.4%、実世界評価で90.6%のエラー検出率を達成し、推論は1アクションあたり13msで実行され、ECoT(1528ms)などのCoTベース手法より大幅に高速で、非推論ベースラインと同等の速度である。
論文の注目点
- Sentinel-VLAは専用のステータスモニターエキスパートを使用して実行状態(Initial、Normal、New-subtask、Error)を分類し、必要な場合のみ推論を発動することで、堅牢な意思決定を維持しつつ1アクションあたり13msの推論時間を達成している。
- EC-Genパイプラインは、専門家軌跡に3種類の摂動(インタラクション、空間、意味)を注入しリカバリシーケンスをアノテーションすることで、大規模なエラー回復学習データ(44タスクにわたる260万以上の遷移)を自動生成する。
- OC-Adapterを用いたSECLアルゴリズムは、新しいアダプター更新を既存知識に対して直交する空間に制約することで継続学習を可能にし、直交性制約なしの標準LoRA使用時の44.7%に対して実世界成功率60.0%を達成している。