論文の概要: Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation
- arxiv url: http://arxiv.org/abs/2603.05185v1
- Date: Thu, 05 Mar 2026 13:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.938439
- Title: Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation
- Title(参考訳): ループにおける批判:ロバストな長距離操作のためのトリシステムVLAフレームワーク
- Authors: Pengfei Yi, Yingjie Ma, Wenjiang Xu, Yanan Hao, Shuai Gan, Wanting Li, Shanlin Zhong,
- Abstract要約: Critic in the Loopは動的VLM-Expertスケジューリングによって駆動される適応的階層型フレームワークである。
中心となるのは、グローバル推論のためのVLM脳、リアクティブ実行のためのVLA小脳、軽量な視覚的批判を含む、バイオニックなTri-Systemアーキテクチャである。
我々のアーキテクチャは、人間にインスパイアされたルールをシームレスに統合し、無限の再試行ループを直感的に破る。
- 参考スコア(独自算出の注目度): 5.339854280045898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Balancing high-level semantic reasoning with low-level reactive control remains a core challenge in visual robotic manipulation. While Vision-Language Models (VLMs) excel at cognitive planning, their inference latency precludes real-time execution. Conversely, fast Vision-Language-Action (VLA) models often lack the semantic depth required for complex, long-horizon tasks. To bridge this gap, we introduce Critic in the Loop, an adaptive hierarchical framework driven by dynamic VLM-Expert scheduling. At its core is a bionic Tri-System architecture comprising a VLM brain for global reasoning, a VLA cerebellum for reactive execution, and a lightweight visual Critic. By continuously monitoring the workspace, the Critic dynamically routes control authority. It sustains rapid closed-loop execution via the VLA for routine subtasks, and adaptively triggers the VLM for replanning upon detecting execution anomalies such as task stagnation or failures. Furthermore, our architecture seamlessly integrates human-inspired rules to intuitively break infinite retry loops. This visually-grounded scheduling minimizes expensive VLM queries, while substantially enhancing system robustness and autonomy in out-of-distribution (OOD) scenarios. Comprehensive experiments on challenging, long-horizon manipulation benchmarks reveal that our approach achieves state-of-the-art performance.
- Abstract(参考訳): ハイレベルなセマンティック推論と低レベルなリアクティブ制御のバランスをとることは、視覚ロボット操作において依然として重要な課題である。
VLM(Vision-Language Models)は認知計画において優れているが、その推論遅延はリアルタイム実行を妨げている。
逆に、高速ビジョン・ランゲージ・アクション(VLA)モデルは、複雑な長距離タスクに必要な意味的な深さを欠いていることが多い。
このギャップを埋めるために、動的VLM-Expertスケジューリングによって駆動される適応的階層型フレームワークであるCrytic in the Loopを導入する。
中心となるのは、グローバル推論のためのVLM脳、リアクティブ実行のためのVLA小脳、軽量な視覚的批判を含む、バイオニックなTri-Systemアーキテクチャである。
ワークスペースを継続的に監視することで、Criticは制御権限を動的にルーティングする。
定期的なサブタスクのためにVLAを介して高速なクローズドループ実行を継続し、タスクの停止や障害などの実行異常を検出すると、VLMを適応的にリプランする。
さらに、アーキテクチャは人間にインスパイアされたルールをシームレスに統合し、無限の再試行ループを直感的に破壊する。
この視覚的なスケジューリングは高価なVLMクエリを最小限に抑えつつ、アウト・オブ・ディストリビューション(OOD)シナリオにおけるシステムの堅牢性と自律性を著しく向上させる。
本手法が最先端の性能を実現することを明らかにするため, 長期的評価ベンチマークの総合的な実験を行った。
関連論文リスト
- V-CAGE: Context-Aware Generation and Verification for Scalable Long-Horizon Embodied Tasks [6.820118518027692]
V-CAGEは、大規模なセマンティックアライメントデータセットを生成するクローズドループフレームワークである。
本研究では,シーン合成における幾何学的整合性を実現する文脈認識型インスタンス化機構を提案する。
また、階層的な命令分解モジュールを用いて、抽象意図と低レベル制御のギャップを埋める。
論文 参考訳(メタデータ) (2026-01-21T16:41:51Z) - Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。
本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。
提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文 参考訳(メタデータ) (2025-10-22T16:43:29Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - VLM Can Be a Good Assistant: Enhancing Embodied Visual Tracking with Self-Improving Vision-Language Models [34.60772103760521]
視覚言語モデル(VLM)を用いた身体的視覚追跡(EVT)を強化する新しいフレームワークを提案する。
この研究は、EVTエージェントのアクティブ障害回復を支援するVLMベースの推論の最初の統合である。
論文 参考訳(メタデータ) (2025-05-27T04:53:50Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。