論文の概要: ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning
- arxiv url: http://arxiv.org/abs/2604.24300v2
- Date: Tue, 05 May 2026 23:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 15:17:35.448361
- Title: ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning
- Title(参考訳): ReVSI:VLM3次元推論の精度評価のための視覚空間情報評価の再構築
- Authors: Yiming Zhang, Jiacheng Chen, Jiaqi Tan, Yongsen Mao, Wenhu Chen, Angel X. Chang,
- Abstract要約: 空間知能の現在の評価は、現代の視覚言語モデル(VLM)設定下で体系的に無効にすることができる。
本稿では,各QAペアが実際の入力の下で応答可能で正しいことを保証するためのベンチマークとプロトコルであるReVSIを紹介する。
- 参考スコア(独自算出の注目度): 59.558706734431276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current evaluations of spatial intelligence can be systematically invalid under modern vision-language model (VLM) settings. First, many benchmarks derive question-answer (QA) pairs from point-cloud-based 3D annotations originally curated for traditional 3D perception. When such annotations are treated as ground truth for video-based evaluation, reconstruction and annotation artifacts can miss objects that are clearly visible in the video, mislabel object identities, or corrupt geometry-dependent answers (e.g., size), yielding incorrect or ambiguous QA pairs. Second, evaluations often assume full-scene access, while many VLMs operate on sparsely sampled frames (e.g., 16-64), making many questions effectively unanswerable under the actual model inputs. We improve evaluation validity by introducing ReVSI, a benchmark and protocol that ensures each QA pair is answerable and correct under the model's actual inputs. To this end, we re-annotate objects and geometry across 381 scenes from 5 datasets to improve data quality, and regenerate all QA pairs with rigorous bias mitigation and human verification using professional 3D annotation tools. We further enhance evaluation controllability by providing variants across multiple frame budgets (16/32/64/all) and fine-grained object visibility metadata, enabling controlled diagnostic analyses. Evaluations of general and domain-specific VLMs on ReVSI reveal systematic failure modes that are obscured by prior benchmarks, yielding a more reliable and diagnostic assessment of spatial intelligence.
- Abstract(参考訳): 空間知能の現在の評価は、現代の視覚言語モデル(VLM)設定下で体系的に無効にすることができる。
まず、多くのベンチマークは、従来の3D知覚のために算出されたポイントクラウドベースの3Dアノテーションから質問応答(QA)ペアを導出する。
このようなアノテーションがビデオベースの評価のための基礎的真実として扱われる場合、再構成やアノテーションアーティファクトは、ビデオや不明瞭なオブジェクトの同一性、あるいは腐敗した幾何学に依存した回答(例えば、サイズ)ではっきりと見えるオブジェクトを見逃し、誤ったあるいは曖昧なQAペアを生成する。
第二に、評価はフルシーンアクセスを前提とすることが多いが、多くのVLMはスパースサンプリングされたフレーム(例:16-64)で動作しており、実際のモデル入力では多くの疑問が効果的に解決できない。
我々は,各QAペアが実際の入力の下で応答可能で正しいことを保証するベンチマークとプロトコルであるReVSIを導入することにより,評価の有効性を向上させる。
この目的のために、5つのデータセットから381のシーンでオブジェクトとジオメトリを再注釈し、データ品質を改善し、厳密なバイアス緩和とプロの3Dアノテーションツールによる人間の検証で全てのQAペアを再生する。
さらに、複数のフレーム予算(16/32/64/all)と細粒度オブジェクトの可視性メタデータのバリエーションを提供することにより、評価制御性を向上し、制御された診断分析を可能にする。
ReVSI上での一般的なVLMとドメイン固有のVLMの評価は、事前のベンチマークによって隠蔽される体系的な障害モードを示し、より信頼性が高く、空間知能の診断的評価をもたらす。
関連論文リスト
- Benchmarking Deflection and Hallucination in Large Vision-Language Models [25.176271096443482]
既存のベンチマークでは、視覚的証拠とテキスト的証拠の衝突を見落としている。
多様なマルチモーダル検索設定にまたがる2,775個のサンプルのベンチマークであるVLM-DeflectionBenchを紹介する。
私たちの結果は、モデルが知っていることだけでなく、そうでないときにどのように振る舞うかを評価する必要性を強調します。
論文 参考訳(メタデータ) (2026-04-13T20:22:22Z) - Fix Before Search: Benchmarking Agentic Query Visual Pre-processing in Multimodal Retrieval-augmented Generation [47.96044455071274]
V-QPP-Benchは、Visual Queryの事前処理に特化した最初のベンチマークである。
視覚障害は、検索リコールとエンド・ツー・エンドのMRAGパフォーマンスの両方を著しく低下させる。
市販のMLLMは、特別な訓練を受けずにツールの選択とパラメータ予測に苦労する。
教師付き微調整により、コンパクトモデルはより大きなプロプライエタリモデルと同等または優れた性能を達成できる。
論文 参考訳(メタデータ) (2026-02-13T18:39:48Z) - NovisVQ: A Streaming Convolutional Neural Network for No-Reference Opinion-Unaware Frame Quality Assessment [39.76658525158528]
コンピュータビジョンタスクにはビデオ品質評価(VQA)が不可欠だが、既存のアプローチには大きな制約がある。
我々は、参照も意見も意識しないスケーラブルでストリーミングベースのVQAモデルを提案する。
論文 参考訳(メタデータ) (2025-11-06T18:23:55Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - RT-VLM: Re-Thinking Vision Language Model with 4-Clues for Real-World Object Recognition Robustness [2.9979091009694088]
現実世界のデプロイメントは、しばしば、最新のオブジェクト認識モデルをドメインシフトに公開し、精度を著しく低下させる。
この劣化を軽減するため、我々はRT-VLM(Re-Thinking Vision Language Model)フレームワークを導入する。
論文 参考訳(メタデータ) (2025-09-01T02:13:00Z) - BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models [2.526146573337397]
眼科診断に触発された新しい評価手法を提案する。
合成画像のプロシージャ生成を用いて視覚特性の制御を行う。
この診断は、系統的なストレステストときめ細かい故障解析を可能にする。
論文 参考訳(メタデータ) (2025-06-05T12:43:10Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。