論文の概要: Revisiting Marr in Face: The Building of 2D--2.5D--3D Representations in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2411.16148v1
- Date: Mon, 25 Nov 2024 07:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:34.383051
- Title: Revisiting Marr in Face: The Building of 2D--2.5D--3D Representations in Deep Neural Networks
- Title(参考訳): 深部ニューラルネットワークにおける2次元-2.5D--3次元表現の構築
- Authors: Xiangyu Zhu, Chang Yu, Jiankuo Zhao, Zhaoxiang Zhang, Stan Z. Li, Zhen Lei,
- Abstract要約: 近年、ディープニューラルネットワークは人間のビジョンに匹敵するレベルに達していると広く考えられている。
ネットワークの中間層から元の画像を再構成するためのサブネットワークであるグラフィクスプローブを導入する。
ニューラルネットワークにグラフィックスプローブを注入し、画像再構成の動作を分析することで、DNNは最初、低層層における2D表現として画像をエンコードし、最終的に高層層における3D表現を構築する。
- 参考スコア(独自算出の注目度): 98.73945700100037
- License:
- Abstract: David Marr's seminal theory of vision proposes that the human visual system operates through a sequence of three stages, known as the 2D sketch, the 2.5D sketch, and the 3D model. In recent years, Deep Neural Networks (DNN) have been widely thought to have reached a level comparable to human vision. However, the mechanisms by which DNNs accomplish this and whether they adhere to Marr's 2D--2.5D--3D construction theory remain unexplored. In this paper, we delve into the perception task to explore these questions and find evidence supporting Marr's theory. We introduce a graphics probe, a sub-network crafted to reconstruct the original image from the network's intermediate layers. The key to the graphics probe is its flexible architecture that supports image in both 2D and 3D formats, as well as in a transitional state between them. By injecting graphics probes into neural networks, and analyzing their behavior in reconstructing images, we find that DNNs initially encode images as 2D representations in low-level layers, and finally construct 3D representations in high-level layers. Intriguingly, in mid-level layers, DNNs exhibit a hybrid state, building a geometric representation that s sur normals within a narrow depth range, akin to the appearance of a low-relief sculpture. This stage resembles the 2.5D representations, providing a view of how DNNs evolve from 2D to 3D in the perception process. The graphics probe therefore serves as a tool for peering into the mechanisms of DNN, providing empirical support for Marr's theory.
- Abstract(参考訳): デビッド・マーの視覚理論は、人間の視覚系が2Dスケッチ、2.5Dスケッチ、および3Dモデルとして知られる3つの段階の連続を通して機能することを示唆している。
近年、ディープニューラルネットワーク(DNN)は人間のビジョンに匹敵するレベルに達していると広く考えられている。
しかし、DNNがこれを達成し、マーの2D-2.5D--3D構築理論に準拠するかどうかのメカニズムは未解明のままである。
本稿では,これらの疑問を探求し,マーの理論を裏付ける証拠を見つけるために,知覚課題を掘り下げる。
ネットワークの中間層から元の画像を再構成するためのサブネットワークであるグラフィクスプローブを導入する。
グラフィックプローブの鍵となるのは、その柔軟なアーキテクチャで、2Dフォーマットと3Dフォーマットの両方で画像をサポートし、それらの間の遷移状態をサポートする。
ニューラルネットワークにグラフィックスプローブを注入し、画像再構成の動作を分析することで、DNNは最初、低層層における2D表現として画像をエンコードし、最終的に高層層における3D表現を構築する。
興味深いことに、中層層では、DNNはハイブリッドな状態を示し、低解像度の彫刻の出現に似た、狭い奥行きの範囲で正規化される幾何学的表現を構築している。
このステージは2.5D表現に似ており、認識過程においてDNNが2Dから3Dへとどのように進化するかのビューを提供する。
したがって、グラフィックプローブはDNNのメカニズムをピアリングするためのツールとして機能し、マーの理論を実証的に支持する。
関連論文リスト
- GOEmbed: Gradient Origin Embeddings for Representation Agnostic 3D Feature Learning [67.61509647032862]
入力された2次元画像を任意の3次元表現にエンコードするGOEmbed(Gradient Origin Embeddings)を提案する。
入力画像が大きな事前訓練されたモデルから抽出された2D特徴を用いて符号化される典型的な従来のアプローチとは異なり、カスタマイズされた特徴は異なる3D表現を扱うように設計されている。
論文 参考訳(メタデータ) (2023-12-14T08:39:39Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z) - Deep-MDS Framework for Recovering the 3D Shape of 2D Landmarks from a
Single Image [8.368476827165114]
本稿では,人間の顔上の2次元ランドマークの3次元形状を,単一の入力画像で再現する枠組みを提案する。
ディープニューラルネットワークは、NMDSアプローチで使用される2Dランドマーク間のペアの相似性を学習する。
論文 参考訳(メタデータ) (2022-10-27T06:20:10Z) - 3D-Aware Indoor Scene Synthesis with Depth Priors [62.82867334012399]
既存の手法では、室内配置や内部の物体の多様さのため、屋内シーンのモデル化に失敗する。
室内のシーンは共通な内在構造を持たず、2次元画像のみを用いるだけでは3次元形状のモデルが適切にガイドできない。
論文 参考訳(メタデータ) (2022-02-17T09:54:29Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - Bidirectional Projection Network for Cross Dimension Scene Understanding [69.29443390126805]
本稿では,2次元および3次元の連立推論のための縦方向投影網(BPNet)をエンドツーエンドに提示する。
emphBPM、補完的な2D、および3D情報は、複数のアーキテクチャレベルで相互に相互作用することができる。
我々のemphBPNetは2次元および3次元セマンティックセマンティックセグメンテーションのためのScanNetV2ベンチマークで最高性能を達成した。
論文 参考訳(メタデータ) (2021-03-26T08:31:39Z) - Improved Brain Age Estimation with Slice-based Set Networks [18.272915375351914]
本稿では,脳波予測のための新しいアーキテクチャを提案する。
提案アーキテクチャは, ディープ2D-CNNモデルを用いて, それぞれの2次元スライスをMRIで符号化することによって機能する。
次に、セットネットワークまたは置換不変層を用いて、これらの2Dスライス符号化の情報を組み合わせる。
英国のBiobankデータセットを用いたBrainAGE予測問題の実験では、置換不変層を持つモデルは、他の最先端のアプローチと比較して、より高速にトレーニングし、より良い予測を提供することが示された。
論文 参考訳(メタデータ) (2021-02-08T18:54:15Z) - Attention-Guided Version of 2D UNet for Automatic Brain Tumor
Segmentation [2.371982686172067]
グリオーマは脳腫瘍の中でも最も一般的で攻撃的であり、高い成績で寿命が短くなる。
深層畳み込みニューラルネットワーク(DCNN)は脳腫瘍のセグメンテーションにおいて顕著な性能を発揮している。
しかし, グリオーマの強度や外観に変化があるため, この課題は依然として困難である。
論文 参考訳(メタデータ) (2020-04-04T20:09:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。