RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes
Abstractの概要
RoboStressBenchは、クリーンな画像や合成された破損パターンの代わりとして、実体環境(Embodied scenes)における物理的な視覚的ストレスに対する視覚言語モデル(VLM)の堅牢性を評価するためのベンチマークである。本論文では、画像形成の観点から視覚的ストレスを定式化し、材質、視点、照明、形状という4つの物理的次元に分類している。このベンチマークは、スクリーニングされた実例、制御されたストレス合成、追加の実世界データ収集から構築され、多肢選択式のVQAとグラウンディングタスクの両方をサポートする約7,200サンプルのデータセットを提供している。この設定を用いて、著者らは16の最先端VLMを評価し、様々なストレス要因が認識、推論、計画、および位置特定に関連するモデルの挙動にどのように影響するかを分析している。
新規性
主な新規性は、一般的なデジタルノイズではなく画像形成要因を用いてストレスを定義する、実体環境におけるVLMのための物理的根拠に基づく堅牢性ベンチマークを提案した点にある。また、推論を実行する前に明示的なストレス診断を行う、テスト時の検出および修正パイプライン「StressDART」とこのベンチマークを組み合わせている点も特徴的である。
成果
評価された16のVLMにおいて、物理的な視覚的ストレス下での性能は依然として飽和しておらず、最高総合精度は58.1%、強力な商用モデルのスコアも44.8%および46.2%にとどまった。モデルの大規模化は一般に平均性能を向上させるが、ストレス特有の弱点を解消するものではなく、特に形状に関するストレスは位置特定や空間推論タスクにおいて深刻な悪影響を及ぼすことが示された。提案されたStressDARTを用いた場合、元画像と修正画像の両方で推論を行うことで、Qwen3-VL-4Bのベースラインモデルの精度が43.2%から49.0%に向上した。
論文の注目点
- RoboStressBenchは、実体環境における視覚的ストレスを「材質」「視点」「照明」「形状」という4つの解釈可能な次元に分類し、VQAとグラウンディングの両方の評価をサポートする。
- ベンチマークによりタスクに依存した失敗モードが明らかになり、例えば形状関連のストレスはグラウンディングと空間推論を著しく低下させる一方、材質や照明のストレスは認識状態や状況理解により頻繁に影響を与える。
- StressDARTは、主要なストレス要因を特定して対象を絞った修正を適用する、パラメータフリーでのテスト時介入を提供し、ベースラインモデルに対して測定可能な堅牢性の向上をもたらす。