論文の概要: VLM-DEWM: Dynamic External World Model for Verifiable and Resilient Vision-Language Planning in Manufacturing
- arxiv url: http://arxiv.org/abs/2602.15549v1
- Date: Tue, 17 Feb 2026 12:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.067166
- Title: VLM-DEWM: Dynamic External World Model for Verifiable and Resilient Vision-Language Planning in Manufacturing
- Title(参考訳): VLM-DEWM:製造における検証可能かつ弾力性のあるビジョンランゲージ計画のための動的外界モデル
- Authors: Guoqin Tang, Qingxuan Jia, Gang Chen, Tong Li, Zeyuan Huang, Zihang Lv, Ning Ji,
- Abstract要約: 視覚言語モデル(VLM)は、スマートマニュファクチャリングにおける高レベルのプランニングを約束する。
本稿では,VLMを世界状態管理から切り離した認知アーキテクチャであるVLM-DEWMを提案する。
VLM-DEWMは、マルチステーション組立、大規模施設探索、誘導故障時の実ロボット回収において評価される。
- 参考スコア(独自算出の注目度): 6.758047936249273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language model (VLM) shows promise for high-level planning in smart manufacturing, yet their deployment in dynamic workcells faces two critical challenges: (1) stateless operation, they cannot persistently track out-of-view states, causing world-state drift; and (2) opaque reasoning, failures are difficult to diagnose, leading to costly blind retries. This paper presents VLM-DEWM, a cognitive architecture that decouples VLM reasoning from world-state management through a persistent, queryable Dynamic External World Model (DEWM). Each VLM decision is structured into an Externalizable Reasoning Trace (ERT), comprising action proposal, world belief, and causal assumption, which is validated against DEWM before execution. When failures occur, discrepancy analysis between predicted and observed states enables targeted recovery instead of global replanning. We evaluate VLM-DEWM on multi-station assembly, large-scale facility exploration, and real-robot recovery under induced failures. Compared to baseline memory-augmented VLM systems, VLM DEWM improves state-tracking accuracy from 56% to 93%, increases recovery success rate from below 5% to 95%, and significantly reduces computational overhead through structured memory. These results establish VLM-DEWM as a verifiable and resilient solution for long-horizon robotic operations in dynamic manufacturing environments.
- Abstract(参考訳): 視覚言語モデル(VLM)は、スマート製造におけるハイレベルな計画の実現を約束するが、動的ワークセルへの展開は、1)ステートレスな操作、2)ビュー外の状態を継続的に追跡できないこと、(2)不透明な推論、障害の診断が困難であること、そしてコストのかかるブラインドリトライの2つの重要な課題に直面している。
本稿では,VLMを世界状態管理から切り離す認知アーキテクチャであるVLM-DEWMについて,永続的でクエリ可能な動的外界モデル(DEWM)を用いて述べる。
各 VLM 決定は、実行前に DEWM に対して検証された行動提案、世界信念、因果仮定からなる外部化可能な推論トレース (ERT) に構成される。
故障が発生した場合、予測状態と観測状態の差分解析により、グローバルな再計画ではなく、目標とするリカバリが可能となる。
VLM-DEWMをマルチステーション・アセンブリー、大規模施設探索、および誘導故障時の実ロボット回収で評価した。
ベースラインメモリ拡張VLMシステムと比較して、VLM DEWMは状態追跡精度を56%から93%改善し、リカバリ成功率を5%から95%に向上させ、構造化メモリによる計算オーバーヘッドを大幅に削減する。
これらの結果から, VLM-DEWMは, 動的製造環境における長期ロボット操作の信頼性とレジリエントなソリューションとして確立された。
関連論文リスト
- ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - Eva-VLA: Evaluating Vision-Language-Action Models' Robustness Under Real-World Physical Variations [20.05530136820015]
VLA(Vision-Language-Action)モデルは、ロボット操作のための有望なソリューションとして登場したが、現実世界の物理的変動に対する堅牢性は、いまだに過小評価されていない。
本稿では,離散的な物理変動を連続最適化問題に変換することで,VLAモデルのロバスト性を体系的に評価する最初の統一フレームワークであるEva-VLAを提案する。
Eva-VLAフレームワークは,VLAベースのロボット操作モデルを現実の展開課題に対して強化するための実用的な経路を提供する。
論文 参考訳(メタデータ) (2025-09-23T13:02:23Z) - VLMInferSlow: Evaluating the Efficiency Robustness of Large Vision-Language Models as a Service [11.715844075786958]
VLMInferSlowは、現実的なブラックボックス設定において、VLM効率の堅牢性を評価するための新しいアプローチである。
VLMInferSlowは、知覚不能な摂動を伴う逆画像を生成し、計算コストを最大128.47%向上させることを示す。
論文 参考訳(メタデータ) (2025-06-18T08:57:17Z) - VLM Can Be a Good Assistant: Enhancing Embodied Visual Tracking with Self-Improving Vision-Language Models [34.60772103760521]
視覚言語モデル(VLM)を用いた身体的視覚追跡(EVT)を強化する新しいフレームワークを提案する。
この研究は、EVTエージェントのアクティブ障害回復を支援するVLMベースの推論の最初の統合である。
論文 参考訳(メタデータ) (2025-05-27T04:53:50Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。