論文の概要: Deterministic World Models for Verification of Closed-loop Vision-based Systems
- arxiv url: http://arxiv.org/abs/2512.08991v1
- Date: Mon, 08 Dec 2025 02:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.254024
- Title: Deterministic World Models for Verification of Closed-loop Vision-based Systems
- Title(参考訳): 閉ループビジョンベースシステムの検証のための決定論的世界モデル
- Authors: Yuang Geng, Zhuoyang Zhou, Zhongzheng Zhang, Siyuan Pan, Hoang-Dung Tran, Ivan Ruchkin,
- Abstract要約: 本稿では,システム状態を直接生成画像にマッピングし,正確な入力境界を確保するための決定論的世界モデル(DWM)を提案する。
我々はDWMをStar-based reachability analysis(StarV)を利用した検証パイプラインに統合し、厳密な統計的境界を導出するために共形予測を用いる。
標準ベンチマーク実験により,提案手法は潜在変数ベースラインよりもはるかに密着性が高く,検証性能も良好であることが示された。
- 参考スコア(独自算出の注目度): 2.5051366017487715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Verifying closed-loop vision-based control systems remains a fundamental challenge due to the high dimensionality of images and the difficulty of modeling visual environments. While generative models are increasingly used as camera surrogates in verification, their reliance on stochastic latent variables introduces unnecessary overapproximation error. To address this bottleneck, we propose a Deterministic World Model (DWM) that maps system states directly to generative images, effectively eliminating uninterpretable latent variables to ensure precise input bounds. The DWM is trained with a dual-objective loss function that combines pixel-level reconstruction accuracy with a control difference loss to maintain behavioral consistency with the real system. We integrate DWM into a verification pipeline utilizing Star-based reachability analysis (StarV) and employ conformal prediction to derive rigorous statistical bounds on the trajectory deviation between the world model and the actual vision-based system. Experiments on standard benchmarks show that our approach yields significantly tighter reachable sets and better verification performance than a latent-variable baseline.
- Abstract(参考訳): クローズドループ視覚に基づく制御システムの検証は、画像の高次元性と視覚環境のモデル化が困難であるため、依然として根本的な課題である。
生成モデルは、検証においてカメラサロゲートとして使われることが多いが、確率的潜在変数への依存は、不要な過剰近似誤差をもたらす。
このボトルネックに対処するために,システム状態を直接生成画像にマッピングする決定論的世界モデル(DWM)を提案する。
DWMは、実システムとの動作整合性を維持するために、画素レベルの再構成精度と制御差分損失を組み合わせた二重目的損失関数を用いて訓練される。
我々はDWMをStar-based reachability analysis(StarV)を利用した検証パイプラインに統合し、世界モデルと実際のビジョンベースシステムとの軌道偏差に関する厳密な統計的境界を導出するために共形予測を用いる。
標準ベンチマーク実験により,提案手法は潜在変数ベースラインよりもはるかに密着性が高く,検証性能も良好であることが示された。
関連論文リスト
- When Object-Centric World Models Meet Policy Learning: From Pixels to Policies, and Where It Breaks [24.669692812050645]
我々は、ピクセルから直接オブジェクトレベルのラテントを学習する、完全に教師なし、不整合なオブジェクト中心の世界モデルを導入する。
DLPWMは、複数のアウト・オブ・ディストリビューション(OOD)視覚変化に対する堅牢性を含む、強い再構成と予測性能を達成する。
その結果,物体中心の知覚は頑健な視覚モデルを支援するが,安定した制御を実現するには潜伏ドリフトを緩和する必要があることが示唆された。
論文 参考訳(メタデータ) (2025-11-08T21:09:44Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Designing Robust Software Sensors for Nonlinear Systems via Neural Networks and Adaptive Sliding Mode Control [2.884893167166808]
本稿では,非線形力学系のためのソフトウェアセンサの設計手法を提案する。
明示的な変換や線形化に依存する従来のモデルベースオブザーバとは異なり、提案フレームワークはニューラルネットワークと適応スライディングモード制御(SMC)を統合している。
トレーニング手法は、物理に基づく制約としてシステムの制御方程式を活用することで、基底構造軌道にアクセスせずにオブザーバ合成を可能にする。
論文 参考訳(メタデータ) (2025-07-09T13:06:58Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Vision Foundation Model Embedding-Based Semantic Anomaly Detection [12.940376547110509]
この研究は、最先端のビジョン基盤モデルのセマンティックな先行性を活用することによって、意味的異常の検出を探索する。
本稿では,ランタイム画像からの局所的な視覚埋め込みと,自律システムの安全性と性能を考慮に入れた,名目上のシナリオのデータベースを比較するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-12T19:00:29Z) - Benchmarking Vision Foundation Models for Input Monitoring in Autonomous Driving [7.064497253920508]
特徴抽出器および密度モデリング技術としてのビジョンファウンデーションモデル(VFM)を提案する。
最先端のバイナリOOD分類法と比較すると、密度推定によるVFM埋め込みはOOD入力の同定において既存の手法よりも優れていることが分かる。
提案手法は,ダウンストリームタスクにおけるエラーの原因となる可能性のある高リスク入力を検出し,全体的な性能を向上させる。
論文 参考訳(メタデータ) (2025-01-14T12:51:34Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。