論文の概要: Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery
- arxiv url: http://arxiv.org/abs/2605.01191v1
- Date: Sat, 02 May 2026 02:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.6314
- Title: Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery
- Title(参考訳): Sentinel-VLA:動的推論とエラー回復のためのアクティブ状態モニタリング機能を備えたメタ認知型VLAモデル
- Authors: Wenhao Li, Xiu Su, Yichao Cao, Hongyan Xu, Xiaobo Xia, Shan You, Yi Chen, Chang Xu,
- Abstract要約: textbfSentinel-VLAは,リアルタイム実行状況を監視するアクティブセンチネルモジュールを備えたメタ認知型VLAモデルである。
すべてのトレーニングデータは、設計したパイプラインを通じて自動生成され、注釈付けされます。
実世界の実験では、Sentinel-VLAはSOTAモデルであるPI0と比較してタスク成功率を30%以上向上することを示した。
- 参考スコア(独自算出の注目度): 62.75419724651416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models have advanced the field of embodied manipulation by harnessing broad world knowledge and strong generalization. However, current VLA models still face several key challenges, including limited reasoning capability, lack of status monitoring, and difficulty in self-correction. In this paper, we introduce \textbf{Sentinel-VLA}, a metacognitive VLA model equipped with an active ``sentinel'' module to monitor real-time execution status. Only when necessary, such as during initial planning or upon detecting an error, the model triggers a dynamic reasoning or formulate error recovery solutions. This on-demand reasoning mechanism ensures robust decision-making while minimizing computational overhead. Notably, all training data (spanning 44 tasks and over 2.6 million transitions) is automatically generated and annotated through our designed pipeline. We also propose the Self-Evolving Continual Learning (SECL) algorithm, which allows Sentinel-VLA to identify its capability boundaries and automatically collect data for expansion, paired with Orthogonal Continual Adapter (OC-Adapter) to constrain parameter updates to an orthogonal space, thereby preventing catastrophic forgetting. Real-world experiments demonstrate that Sentinel-VLA boosts the task success rate by over 30\% compared to the SOTA model, PI0. We will open-source all the code, weights, and data generation pipeline.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、幅広い世界の知識と強力な一般化を活用することで、具体的操作の分野を進歩させてきた。
しかしながら、現在のVLAモデルは、推論能力の制限、ステータス監視の欠如、自己修正の難しさなど、いくつかの重要な課題に直面している。
本稿では,リアルタイム実行状況を監視するために,アクティブな ‘Sentinel'' モジュールを備えたメタ認知型 VLA モデルである \textbf{Sentinel-VLA} を紹介する。
初期計画中やエラー検出時にのみ、モデルが動的推論をトリガーしたり、エラー回復ソリューションを定式化したりする。
このオンデマンド推論機構は、計算オーバーヘッドを最小限にしつつ、堅牢な意思決定を可能にする。
特に、すべてのトレーニングデータ(44のタスクと260万のトランジション)は、自動的に生成され、設計したパイプラインを通じて注釈付けされます。
我々はまた,Sentinel-VLAが機能境界を識別し,拡張のためのデータを自動的に収集する自己進化型連続学習アルゴリズムを提案し,直交空間へのパラメータ更新を制限し,破滅的な忘れを防止する。
実世界の実験では、Sentinel-VLAはSOTAモデルであるPI0と比較してタスク成功率を30%以上向上することを示した。
すべてのコード、重み、データ生成パイプラインをオープンソースにします。
関連論文リスト
- VLA-ATTC: Adaptive Test-Time Compute for VLA Models with Relative Action Critic Model [54.35791816657227]
適応型テスト時間計算でVLAモデルを実現するフレームワークである textbfVLA-ATTC' を導入する。
VLA-ATTCは、不確実性に基づく認知クラッチ'を用いて、反射的実行からTTC熟考フェーズへ動的に移行する。
LIBERO-LONGベンチマークでは、VLA-ATTCはSOTAモデルPI0.5の故障率を50%以上削減する。
論文 参考訳(メタデータ) (2026-05-02T02:13:11Z) - AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems [6.586256098975453]
Agent-Integrated Verification and Validation (AIVV)は,大規模言語モデル(LLM)を検討外ループとしてデプロイするハイブリッドフレームワークである。
評議会代理人は、あいまいさと真の失敗を意味的に検証することで協調的な検証を行う。
無人水中車両(UUV)の時系列シミュレータの実験では、AIVがHITL V&Vプロセスのデジタル化に成功した。
論文 参考訳(メタデータ) (2026-04-02T19:25:18Z) - Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning [38.78160379823724]
リカレントディープスVLA(Recurrent-Depth VLA)は、明示的なトークン生成ではなく、遅延反復精製による計算適応性を実現するアーキテクチャである。
RD-VLAは、メモリフットプリントが一定である任意の推論深度をサポートするリカレントで重み付けされたアクションヘッドを使用している。
論文 参考訳(メタデータ) (2026-02-08T07:21:01Z) - On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning [61.38273866396522]
ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
論文 参考訳(メタデータ) (2026-01-11T01:51:30Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - AVA-VLA: Improving Vision-Language-Action models with Active Visual Attention [24.446865513189433]
VLA(Vision-Language-Action)モデルは、AIタスクを具現化する際、顕著な能力を示した。
現行のVLAモデルは、通常、各時間ステップごとに独立して濃密な視覚入力を処理する。
このアプローチは、タスクをマルコフ決定プロセス(MDP)として暗黙的にモデル化する。
本稿では,部分観測可能なマルコフ決定プロセス(POMDP)の観点から問題を再構成し,AVA-VLAという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-24T10:22:28Z) - Emergent World Representations in OpenVLA [0.7129365616273323]
本稿では,OpenVLAが状態遷移の潜在知識を含むかどうかを探索するために,状態表現への埋め込み演算を用いた実験手法を提案する。
ベースラインを超える状態遷移の統計的に有意な予測能力は,OpenVLAが内部世界モデルを符号化していることを示す。
我々は,OpenVLAの早期チェックポイントの予測能力について検討し,トレーニングが進むにつれて世界モデルが出現することを示す。
論文 参考訳(メタデータ) (2025-09-29T10:12:59Z) - ConStruct-VL: Data-Free Continual Structured VL Concepts Learning [57.86651057895222]
本稿では,Continuous Data-Free Structured VL Concepts Learning (ConStruct-VL)ベンチマークを紹介する。
本稿では,過去のタスクモデルから過去のタスクの逆リマインダーを生成するAdrial Pseudo-Replay (APR) の新たなアプローチによるデータフリー手法を提案する。
このアプローチは、いくつかのレベルのエクスペリエンス再生に適合しながら、すべてのデータフリーメソッドを最大7%上回ります。
論文 参考訳(メタデータ) (2022-11-17T18:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。