論文の概要: Improving Robustness of Vision-Language-Action Models by Restoring Corrupted Visual Inputs
- arxiv url: http://arxiv.org/abs/2602.01158v1
- Date: Sun, 01 Feb 2026 11:09:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.633131
- Title: Improving Robustness of Vision-Language-Action Models by Restoring Corrupted Visual Inputs
- Title(参考訳): 故障した視覚入力の復元による視覚言語行動モデルのロバスト性の改善
- Authors: Daniel Yezid Guarnizo Orjuela, Leonardo Scappatura, Veronica Di Gennaro, Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci,
- Abstract要約: VLA(Vision-Language-Action)モデルは、汎用的なロボット操作の主要なパラダイムとして登場した。
しかし、信頼性の高い現実世界の展開は、視覚障害に対する脆弱さによって著しく妨げられている。
センサ障害に対してVLAモデルを免疫するために設計された視覚変換器であるCRT(Corruption Restoration Transformer)を導入する。
- 参考スコア(独自算出の注目度): 6.2827295422415235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as a dominant paradigm for generalist robotic manipulation, unifying perception and control within a single end-to-end architecture. However, despite their success in controlled environments, reliable real-world deployment is severely hindered by their fragility to visual disturbances. While existing literature extensively addresses physical occlusions caused by scene geometry, a critical mode remains largely unexplored: image corruptions. These sensor-level artifacts, ranging from electronic noise and dead pixels to lens contaminants, directly compromise the integrity of the visual signal prior to interpretation. In this work, we quantify this vulnerability, demonstrating that state-of-the-art VLAs such as $π_{0.5}$ and SmolVLA, suffer catastrophic performance degradation, dropping from 90\% success rates to as low as 2\%, under common signal artifacts. To mitigate this, we introduce the Corruption Restoration Transformer (CRT), a plug-and-play and model-agnostic vision transformer designed to immunize VLA models against sensor disturbances. Leveraging an adversarial training objective, CRT restores clean observations from corrupted inputs without requiring computationally expensive fine-tuning of the underlying model. Extensive experiments across the LIBERO and Meta-World benchmarks demonstrate that CRT effectively recovers lost performance, enabling VLAs to maintain near-baseline success rates, even under severe visual corruption.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、汎用的なロボット操作において支配的なパラダイムとして登場し、単一のエンドツーエンドアーキテクチャにおける認識と制御を統一している。
しかし、制御された環境での成功にもかかわらず、信頼性の高い現実世界の展開は、その脆弱さと視覚障害によって著しく妨げられている。
既存の文献は、シーン幾何学によって引き起こされる物理的閉塞を広く扱うが、重要なモードは、ほとんど探索されていない:画像の破損である。
電子ノイズやデッドピクセルからレンズ汚染物質まで、これらのセンサーレベルのアーティファクトは、解釈の前に視覚信号の完全性を直接侵害する。
本研究では,この脆弱性を定量化し,π_{0.5}$やSmolVLAのような最先端のVLAが破滅的な性能劣化に悩まされ,90 %の成功率から2 %まで低下することを示す。
センサ障害に対するVLAモデルを免疫するために設計されたプラグアンドプレイおよびモデル非依存の視覚変換器であるCRT(Corruption Restoration Transformer)を導入する。
敵の訓練目標を活用することで、CRTは、基礎となるモデルの計算コストのかかる微調整を必要とせずに、破損した入力からのクリーンな観察を復元する。
LIBEROとMeta-Worldベンチマークの広範な実験により、CRTは失われたパフォーマンスを効果的に回復し、VLAが深刻な視覚的腐敗の下でもほぼベースラインの成功率を維持することができることを示した。
関連論文リスト
- ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding [54.05243949024302]
既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。
本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。
提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
論文 参考訳(メタデータ) (2025-12-19T12:56:17Z) - Analysing the Robustness of Vision-Language-Models to Common Corruptions [2.9459935333120972]
視覚言語モデル(VLM)は、視覚的およびテキスト的コンテンツに対する理解と推論の優れた能力を実証している。
我々は、ImageNet-Cベンチマークから、19種類の汚職タイプにまたがるVLMのロバスト性について、初めて包括的解析を行った。
シーンテキスト理解とオブジェクトベース推論にどのように影響するかを評価するために,2つの新しいベンチマークであるTextVQA-CとGQA-Cを導入する。
論文 参考訳(メタデータ) (2025-04-18T13:46:32Z) - SegSTRONG-C: Segmenting Surgical Tools Robustly On Non-adversarial Generated Corruptions -- An EndoVis'24 Challenge [35.28816926000958]
外科データ科学専門のベンチマークと課題であるSegSTRONG-Cを紹介する。
我々は、予期せぬ不利な非敵対的な汚職の下でのモデル劣化をよりよく理解することを目指している。
挑戦者のパフォーマンスは平均0.9394 DSCと0.9301 NSDを達成し、刺激的な改善を示している。
論文 参考訳(メタデータ) (2024-07-16T16:50:43Z) - Boosting Visual Recognition in Real-world Degradations via Unsupervised Feature Enhancement Module with Deep Channel Prior [22.323789227447755]
霧、低照度、動きのぼかしは画像の品質を低下させ、自動運転の安全性を脅かす。
本研究は、劣化した視覚認識のための新しいDeep Channel Prior (DCP)を提案する。
これに基づいて、教師なし特徴補正を実現するために、新しいプラグアンドプレイunsupervised Feature Enhancement Module (UFEM)を提案する。
論文 参考訳(メタデータ) (2024-04-02T07:16:56Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - On the Robustness of Quality Measures for GANs [136.18799984346248]
本研究は、インセプションスコア(IS)やFr'echet Inception Distance(FID)のような生成モデルの品質測定の堅牢性を評価する。
このような測度は、加算画素摂動によっても操作可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T06:43:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。