論文の概要: MAPS: A Synthetic Dataset for Probing Vision Models in a Controlled 3D Scene Space
- arxiv url: http://arxiv.org/abs/2605.20549v1
- Date: Tue, 19 May 2026 22:51:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.406652
- Title: MAPS: A Synthetic Dataset for Probing Vision Models in a Controlled 3D Scene Space
- Title(参考訳): MAPS:制御された3次元シーン空間における視覚モデル探索のための合成データセット
- Authors: Santiago Galella, Pamela Osuna-Vargas, Maren Wehrheim, Martina G. Vilas, Gemma Roig, Matthias Kaschube,
- Abstract要約: 我々は,視覚モデル行動がシーンパラメータに寄与するスケーラブルな楽器MAPS(Manifolds of Artificial Parametric Scenes)を紹介する。
MAPSは560のImageNetクラスにまたがる認識性を検証する2,618個のキュレートされた3Dメッシュで構成されている。
回帰に基づく感度解析により,20の畳み込みモデルと変圧器モデルの評価を行った。
- 参考スコア(独自算出の注目度): 9.579861438286601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern vision models achieve strong performance on standard benchmarks, yet their aggregate accuracy reveals little about which scene properties drive their predictions. Existing robustness benchmarks provide important stress tests, but typically manipulate global 2D image properties, rely on entangled real-world variation, or cover only a limited set of 3D objects and scene parameters. We introduce MAPS (Manifolds of Artificial Parametric Scenes), a scalable instrument for controlled attribution of vision model behavior to scene parameters. MAPS comprises 2,618 curated photorealistic 3D meshes validated for recognizability across 560 ImageNet classes and provides a Blender-based rendering pipeline for on-demand image generation under continuous variation of nine independent scene-factors spanning background, camera, and lighting, extensible to other factors. To showcase its applicability, we use MAPS to evaluate 20 convolutional and transformer-based models by quantifying their reliance on these scene factors through regression-based sensitivity analysis. We find a near-universal failure axis across all tested architectures: camera distance and elevation consistently dominate recognition failure regardless of ImageNet accuracy. However, the full sensitivity structure reveals that modern CNNs and transformers cluster together, distinct from older architectures, suggesting that fine-grained architectural design choices, rather than the coarse CNN-versus-transformer distinction, are the stronger determinant of sensitivity profiles.
- Abstract(参考訳): 現代の視覚モデルは、標準的なベンチマークで強い性能を達成するが、それらの集合的精度は、どのシーン特性が予測を駆動しているかをほとんど示さない。
既存のロバストネスベンチマークは重要なストレステストを提供するが、通常はグローバルな2D画像特性を操作し、絡み合った現実世界の変動に依存し、限られた3Dオブジェクトとシーンパラメータのみをカバーする。
シーンパラメータに対する視覚モデル行動の帰属を制御できるスケーラブルな機器であるMAPS(Manifolds of Artificial Parametric Scenes)を紹介する。
MAPSは、560のImageNetクラスで認識可能な2,618個のキュレートされたフォトリアリスティック3Dメッシュで構成されており、背景、カメラ、照明にまたがる9つの独立したシーン要素の連続的な変動の下で、オンデマンド画像生成のためのブレンダーベースのレンダリングパイプラインを提供する。
その適用性を示すために、回帰に基づく感度分析により、これらのシーン要因への依存度を定量化することにより、MAPSを用いて20の畳み込みモデルと変圧器モデルの評価を行う。
カメラ距離と高度が、ImageNetの精度に関わらず、常に認識障害を支配している。
しかし, 最新のCNNとトランスフォーマーは, 従来のアーキテクチャと異なり, 密接なCNN-versus-transformerの区別よりもきめ細かな設計選択が, 感度プロファイルのより強力な決定要因であることを示唆している。
関連論文リスト
- Generative Texture Diversification of 3D Pedestrians for Robust Autonomous Driving Perception [0.0]
本稿では,合成シーン生成のための3次元歩行者資産における変動性のスケーリング手法を提案する。
我々は、多様な顔のテクスチャとアイデンティティレベルの外観変化を合成することにより、複数の異なる歩行者インスタンスを生成する。
これらの資産を用いて, 合成データセットを構築し, 実データと合成データを混合したRGBオブジェクト検出の影響について検討する。
論文 参考訳(メタデータ) (2026-05-13T16:35:50Z) - Towards Intrinsic-Aware Monocular 3D Object Detection [15.283620179657703]
Mono3Dは、単一のRGB画像からオブジェクトの位置と次元を3D空間で推測することを目的としている。
既存の手法は、カメラの内在に非常に敏感であり、多様な設定をまたいだ一般化に苦慮している。
言語基底表現による固有変化をモデル化し,適応する,統合された固有認識フレームワークであるMonoIAを提案する。
論文 参考訳(メタデータ) (2026-03-28T00:29:38Z) - HGGT: Robust and Flexible 3D Hand Mesh Reconstruction from Uncalibrated Images [81.42866295265443]
高忠実度3Dハンドジオメトリはコンピュータビジョンにおいて重要な課題である。
スケーラブルなアプリケーションは、正確性とデプロイメントの柔軟性の両方を必要とします。
本研究では、3Dハンドメッシュとカメラのポーズを非校正視点から推定するフィードフォワードアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-03-25T06:54:34Z) - RePose-NeRF: Robust Radiance Fields for Mesh Reconstruction under Noisy Camera Poses [0.5328562411561214]
マルチビュー画像から直接高品質で編集可能な3Dメッシュを再構築する堅牢なフレームワークを提案する。
我々のアプローチは、細かな幾何学的ディテールと外観をキャプチャする暗黙のシーン表現を学習しながら、カメラのポーズを共同で洗練する。
論文 参考訳(メタデータ) (2025-11-11T18:25:58Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images [2.2124795371148616]
マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。
実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。
これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
論文 参考訳(メタデータ) (2025-04-05T16:25:34Z) - Transformers in Self-Supervised Monocular Depth Estimation with Unknown
Camera Intrinsics [13.7258515433446]
自己教師付き単眼深度推定は3次元シーン理解において重要な課題である。
自己教師付き単眼深度推定のための視覚変換器の適応方法を示す。
本研究は,トランスフォーマーをベースとしたアーキテクチャが,より堅牢で汎用性の高い性能を実現する方法を示す。
論文 参考訳(メタデータ) (2022-02-07T13:17:29Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。