論文の概要: Cortex 2.0: Grounding World Models in Real-World Industrial Deployment
- arxiv url: http://arxiv.org/abs/2604.20246v1
- Date: Wed, 22 Apr 2026 06:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.998694
- Title: Cortex 2.0: Grounding World Models in Real-World Industrial Deployment
- Title(参考訳): Cortex 2.0: 実世界の産業展開における世界モデル構築
- Authors: Adriana Aida, Walida Amer, Katarina Bankovic, Dhruv Behl, Fabian Busch, Annie Bhalla, Minh Duong, Florian Gienger, Rohan Godse, Denis Grachev, Ralf Gulde, Elisa Hagensieker, Junpeng Hu, Shivam Joshi, Tobias Knoblauch, Likith Kumar, Damien LaRocque, Keerthana Lokesh, Omar Moured, Khiem Nguyen, Christian Preyss, Ranjith Sriganesan, Vikram Singh, Carsten Sponner, Anh Tong, Dominik Tuscher, Marc Tuscher, Pavan Upputuri,
- Abstract要約: Vision-Language-Actionモデルは、ロングホライゾンタスクの複合的な障害モードに対して脆弱である。
Cortex 2.0は、視覚潜在空間における将来の候補軌道を生成することにより、反応性制御からプラン・アンド・アクティベーションへ移行する。
Cortex 2.0は最先端のVision-Language-Actionベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 1.8719348816262675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial robotic manipulation demands reliable long-horizon execution across embodiments, tasks, and changing object distributions. While Vision-Language-Action models have demonstrated strong generalization, they remain fundamentally reactive. By optimizing the next action given the current observation without evaluating potential futures, they are brittle to the compounding failure modes of long-horizon tasks. Cortex 2.0 shifts from reactive control to plan-and-act by generating candidate future trajectories in visual latent space, scoring them for expected success and efficiency, then committing only to the highest-scoring candidate. We evaluate Cortex 2.0 on a single-arm and dual-arm manipulation platform across four tasks of increasing complexity: pick and place, item and trash sorting, screw sorting, and shoebox unpacking. Cortex 2.0 consistently outperforms state-of-the-art Vision-Language-Action baselines, achieving the best results across all tasks. The system remains reliable in unstructured environments characterized by heavy clutter, frequent occlusions, and contact-rich manipulation, where reactive policies fail. These results demonstrate that world-model-based planning can operate reliably in complex industrial environments.
- Abstract(参考訳): 産業用ロボットの操作は、エンボディメント、タスク、オブジェクトの分布の変化にまたがる信頼性の高いロングホライゾン実行を要求する。
Vision-Language-Actionモデルは強力な一般化を示してきたが、それらは基本的には反応的である。
将来の可能性を評価することなく、現在の観測から次の動作を最適化することで、長い水平タスクの複合的な障害モードに対して脆弱になる。
Cortex 2.0は、反応制御から計画と実行へと移行し、視覚的潜在空間における将来の軌道候補を生成し、期待される成功と効率を評価し、次に最高評価候補にのみコミットする。
Cortex 2.0をシングルアームとデュアルアームの操作プラットフォームで評価し、ピック・アンド・プレイス、アイテム・アンド・ゴミソート、ネジソート、靴箱アンパックの4つのタスクにまたがって評価した。
Cortex 2.0は最先端のVision-Language-Actionベースラインを一貫して上回り、すべてのタスクで最高の結果を得る。
システムは、重い乱雑、頻繁な閉塞、反応ポリシーが失敗する接触リッチな操作を特徴とする非構造環境において信頼性が保たれている。
これらの結果は,世界モデルに基づく計画が複雑な産業環境で確実に運用可能であることを示している。
関連論文リスト
- World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry [82.93104394404781]
汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束します。
本稿では,世界モデルによる予測誤りと自己改善を識別するフレームワークであるWorld Action Verifier(WAV)を提案する。
論文 参考訳(メタデータ) (2026-04-02T12:48:36Z) - ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。
既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。
シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文 参考訳(メタデータ) (2026-03-30T15:06:41Z) - ProgressVLA: Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation [57.07494675832939]
ロボット操作のための既存の視覚言語アクション(VLA)モデルは、進歩意識を欠いている。
本研究では,textbf vla という新しいモデルを提案し,タスク進捗の推定と統合について検討する。
CALVINとLIBEROベンチマークの実験は、実世界のロボットの展開とともに、成功率の大幅な改善を一貫して示している。
論文 参考訳(メタデータ) (2026-03-29T12:38:11Z) - Act2Goal: From World Model To General Goal-conditioned Policy [14.222177107215648]
Act2Goalは、ゴール条件付きビジュアルワールドモデルとマルチスケールの時間制御を統合した、ゴール条件付き操作ポリシーである。
Act2Goalは、自律的なインタラクションの数分以内に、配布外タスクに挑戦する上で、成功率を30%から90%に改善することを示す。
論文 参考訳(メタデータ) (2025-12-29T15:28:42Z) - World-in-World: World Models in a Closed-Loop World [123.85805788728128]
我々は,実エージェントと環境の相互作用を反映したクローズドループの世界において,世界モデルをベンチマークする最初のオープンプラットフォームであるWorld-in-Worldを紹介した。
多様なWMを厳格に評価し、タスク成功を主要な指標として優先順位付けし、視覚的品質に重点を置く4つのクローズドループ環境をキュレートする。
1)視覚的品質だけではタスクの成功は保証されないが、制御可能性の方が重要であること、2) 行動観測データによる後トレーニングのスケーリングは、事前訓練されたビデオジェネレータをアップグレードするよりも効果的であること、3) 推論時計算の割り当てにより、WMsは大幅にクローズドな改善が可能であること、の3つのサプライズを明らかにした。
論文 参考訳(メタデータ) (2025-10-20T22:09:15Z) - Ctrl-World: A Controllable Generative World Model for Robot Manipulation [53.71061464925014]
汎用ロボットポリシーは、幅広い操作スキルを実行することができる。
未知の物体や命令で 彼らの能力を評価し 改善することは 重要な課題です
世界モデルは、イマジネーション空間内でポリシーの展開を可能にすることで、有望でスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-11T09:13:10Z) - ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks [46.676862567167625]
ODYSSEYは、マニピュレータを備えたアジャイル四足ロボットのための統合モバイル操作フレームワークである。
言語条件付きタスクにおける自我中心的認識の課題に対処するために,視覚言語モデルを用いた階層型プランナを導入する。
コントロールレベルでは、新しい全身政策は、挑戦的な地形をまたいだ堅牢な協調を実現する。
論文 参考訳(メタデータ) (2025-08-11T17:54:31Z) - Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation [12.077740860502878]
身体的ロングホライゾン操作では、ロボットシステムが視覚や自然言語などのマルチモーダル入力を処理し、それらを実行可能なアクションに変換する必要がある。
近年,大規模言語モデル (LLM) を自然言語を用いてタスクをサブタスクに分解し,事前訓練した低レベルコントローラを誘導する高レベルプランナとしての利用が検討されている。
我々のフレームワークは,LoHoRavens,CALVIN,Franka Kitchen,および乱雑な現実世界設定をまたいだ,30以上の多様かつ不明瞭なロングホライゾンタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-27T20:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。