論文の概要: MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2512.12307v1
- Date: Sat, 13 Dec 2025 12:26:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.212345
- Title: MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding
- Title(参考訳): MRD:3次元シーン理解のための視覚モデル探索のための物理ベース微分レンダリング
- Authors: Benjamin Beilharz, Thomas S. A. Wallis,
- Abstract要約: 我々は,視覚モデルによる生成3Dシーン特性の暗黙的理解を探索するために,物理ベースで微分可能なレンダリングを利用するMDD(metamers render differentiably)を導入する。
モデル表現を評価する従来のピクセルベース手法とは異なり、これらの再構成結果は物理的シーン記述に常に基礎を置いている。
- 参考スコア(独自算出の注目度): 0.8123748648559669
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While deep learning methods have achieved impressive success in many vision benchmarks, it remains difficult to understand and explain the representations and decisions of these models. Though vision models are typically trained on 2D inputs, they are often assumed to develop an implicit representation of the underlying 3D scene (for example, showing tolerance to partial occlusion, or the ability to reason about relative depth). Here, we introduce MRD (metamers rendered differentiably), an approach that uses physically based differentiable rendering to probe vision models' implicit understanding of generative 3D scene properties, by finding 3D scene parameters that are physically different but produce the same model activation (i.e. are model metamers). Unlike previous pixel-based methods for evaluating model representations, these reconstruction results are always grounded in physical scene descriptions. This means we can, for example, probe a model's sensitivity to object shape while holding material and lighting constant. As a proof-of-principle, we assess multiple models in their ability to recover scene parameters of geometry (shape) and bidirectional reflectance distribution function (material). The results show high similarity in model activation between target and optimized scenes, with varying visual results. Qualitatively, these reconstructions help investigate the physical scene attributes to which models are sensitive or invariant. MRD holds promise for advancing our understanding of both computer and human vision by enabling analysis of how physical scene parameters drive changes in model responses.
- Abstract(参考訳): 深層学習手法は多くのビジョンベンチマークで目覚ましい成功を収めてきたが、これらのモデルの表現や決定を理解し説明することは依然として困難である。
視覚モデルは典型的には2次元入力に基づいて訓練されるが、基礎となる3次元シーンの暗黙的な表現(例えば、部分閉塞に対する耐性や相対的な深さの推論能力)を発達させることがしばしば想定される。
そこで本研究では,視覚モデルが生成する3次元シーン特性の暗黙的な理解を探索するために,物理的に異なるが同一のモデルアクティベーション(モデルメタマー)を生成する3次元シーンパラメータを探索するために,物理ベースで微分可能なレンダリングを用いる手法であるMDDを導入する。
モデル表現を評価する従来のピクセルベース手法とは異なり、これらの再構成結果は物理的シーン記述に常に基礎を置いている。
これは例えば、材料の保持と点灯定数を保ちながら、モデルの物体形状に対する感度を調査できることを意味します。
原理実証として、幾何学(形状)と双方向反射率分布関数(材料)のシーンパラメータを復元する能力を複数のモデルで評価する。
その結果,ターゲットシーンと最適化シーンのモデルアクティベーションの類似度が高く,視覚的結果も様々であった。
定性的には、これらの再構成は、モデルが敏感であるか不変であるかの物理的なシーン特性を調べるのに役立つ。
MRDは、物理的シーンパラメータがモデル応答の変化を駆動する方法の分析を可能にすることによって、コンピュータと人間の視覚の両方の理解を促進することを約束している。
関連論文リスト
- Vision-Language Embodiment for Monocular Depth Estimation [11.737279515161505]
現在の深度推定モデルは、教師あり訓練における画像間関係に依存している。
本稿では,カメラモデルとその物理特性を深層学習モデルに具体化する手法を提案する。
このモデルでは,環境変化の即時変化に基づいて,実写シーンの深度をリアルタイムで計算することができる。
論文 参考訳(メタデータ) (2025-03-18T18:05:16Z) - Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。
合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。
実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文 参考訳(メタデータ) (2022-03-20T13:06:15Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。