論文の概要: RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes
- arxiv url: http://arxiv.org/abs/2606.00828v1
- Date: Sat, 30 May 2026 17:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:28.869911
- Title: RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes
- Title(参考訳): RoboStressBench: 身体的シーンにおける物理的視覚ストレスに対するVLMロバスト性のベンチマーク
- Authors: Leyi Wu, Yifan Zhao, Jinjie Zhang, Suzeyu Chen, Wosong Chen, Zhifei Chen, Tianshuo Xu, Qingchun He, Hongxin Hu, Haojian Huang, Yangkai Wei, Wenqian Li, Yinchuan Li, Ying-Cong Chen,
- Abstract要約: VLM(Vision-Language Models)は、強力な視覚的理解を示し、組込みAIシステムにますますデプロイされている。
既存のベンチマークでは、物理的なシーン形成によるストレスではなく、クリーンなイメージや孤立した摂動を用いてVLMを評価する。
具体的シーンにおける物理的な視覚的ストレスに対するVLMロバスト性を評価するためのベンチマークであるRoboStressBenchを紹介する。
- 参考スコア(独自算出の注目度): 47.11389355477851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have shown strong visual understanding and are increasingly deployed in embodied AI systems, where reliable perception under real conditions is essential. However, existing benchmarks assess VLMs using clean images or isolated perturbations rather than stresses caused by physical scene formation. This design has two limitations: it covers only a narrow subset of everyday visual stresses, and some perturbations rarely appear in realistic embodied scenes. This gap raises a fundamental question: how can we define visual stress in a principled way that captures the diverse factors encountered in physical environments? To address this question, we formulate visual perception from an inverse graphics perspective and introduce RoboStressBench, a benchmark for evaluating VLM robustness to physical visual stress in embodied scenes. Inspired by the physical rendering equation, RoboStressBench decomposes visual stress into four physically grounded dimensions: Material (M), Viewpoint (V), Lighting (L), and Geometry (G). This design enables RoboStressBench to cover a broad range of visual stresses in real-world environments, while allowing controlled analysis of their effects on VLM capabilities such as visual recognition, reasoning, and planning. Through comprehensive evaluations of state-of-the-art VLMs, we identify stress-specific failure modes and reveal that different physical factors degrade different embodied capabilities, which are often obscured by aggregate accuracy. We further introduce a stress-aware agentic solver that detects visual stressors and invokes visual-editing skills before reasoning, improving robustness in high-stress scenarios. Overall, RoboStressBench provides a principled evaluation framework for diagnosing and improving VLM perception under real-world physical stress, supporting the development of more reliable embodied AI systems.
- Abstract(参考訳): VLM(Vision-Language Models)は、強力な視覚的理解を示し、実環境下での信頼性の認識が不可欠である、具体化されたAIシステムにますます導入されている。
しかし、既存のベンチマークでは、物理的シーン形成によるストレスではなく、クリーンな画像や孤立した摂動を用いてVLMを評価する。
このデザインには2つの制限がある: 日常的な視覚的ストレスの狭い部分のみをカバーし、いくつかの摂動は現実的なエンボディシーンにはほとんど現れない。
このギャップは、物理的な環境で遭遇する様々な要因を捉えるために、どのようにして視覚的ストレスを原則的に定義できるのかという根本的な疑問を提起する。
この問題に対処するために、逆グラフィックスの観点から視覚知覚を定式化し、実写シーンにおけるVLMの物理的ストレスに対する堅牢性を評価するベンチマークであるRoboStressBenchを導入する。
物理レンダリング方程式に着想を得たRoboStressBenchは、視覚的ストレスを物質(M)、視点(V)、照明(L)、幾何学(G)の4つの物理的基底次元に分解する。
この設計により、RoboStressBenchは現実世界の環境における幅広い視覚的ストレスをカバーできると同時に、視覚認識、推論、計画などのVLM能力に対する影響を制御できる。
最新のVLMの総合評価を通じて、ストレス特異的な障害モードを特定し、異なる物理的要因が異なるエンボディ機能に劣化することを明らかにする。
さらに、視覚的ストレスを検知し、推論の前に視覚編集スキルを起動するストレス対応エージェント解決器を導入し、高ストレスシナリオにおける堅牢性を向上させる。
RoboStressBenchは、現実の物理的ストレス下でのVLM知覚の診断と改善のための、原則化された評価フレームワークを提供する。
関連論文リスト
- Less Detail, Better Answers: Degradation-Driven Prompting for VQA [35.82803382206338]
Degradation-Driven Prompting (DDP)は、視覚質問応答(VQA)のパフォーマンスを改善する新しいフレームワークである。
DDPは、画像の忠実度を戦略的に低減し、モデルに本質的な構造情報に集中させる。
論文 参考訳(メタデータ) (2026-04-06T16:41:19Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - The Perceptual Observatory Characterizing Robustness and Grounding in MLLMs [44.71703930770065]
The Perceptual Observatoryは、顔マッチングやテキスト・イン・ビジョンの理解機能など、MLLMを垂直方向に特徴付けるフレームワークである。
知覚観測所はリーダーボードの精度を超えて、MLLMが摂動下での知覚的接地と関係構造をどのように保存するかについての洞察を得る。
論文 参考訳(メタデータ) (2025-12-17T20:22:23Z) - TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文 参考訳(メタデータ) (2025-10-08T21:03:46Z) - DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning [23.41054475390841]
視覚言語モデル(VLM)は、強い知覚能力と印象的な視覚的推論を示す。
複雑な動的環境において、細部と正確な行動計画に注意を払うのに苦労する。
DeepPHYは、現実世界のシナリオでこれらの機能を評価するために設計された、新しいベンチマークフレームワークである。
我々の評価では、最先端のVLMでさえ、物理的知識を正確な予測制御に変換するのに苦労している。
論文 参考訳(メタデータ) (2025-08-07T13:58:19Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward [1.7971686967440696]
V$2$R-Benchは、LVLMの視覚変化ロバスト性を評価するためのベンチマークフレームワークである。
本研究では,複雑な視覚言語タスクに優れた高度なモデルが,オブジェクト認識などの単純なタスクでは著しく性能が劣っていることを示す。
これらの脆弱性は、パイプラインアーキテクチャにおけるエラーの蓄積と、マルチモーダルアライメントの不十分に起因する。
論文 参考訳(メタデータ) (2025-04-23T14:01:32Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。