論文の概要: Investigating the Nature of 3D Generalization in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2304.09358v1
- Date: Wed, 19 Apr 2023 00:54:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 15:57:59.880710
- Title: Investigating the Nature of 3D Generalization in Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークにおける3次元一般化の性質の検討
- Authors: Shoaib Ahmed Siddiqui, David Krueger, Thomas Breuel
- Abstract要約: 視覚オブジェクト認識システムは、一連の2Dトレーニングビューから新しいビューへと一般化する必要がある。
物体認識のための近代的なディープラーニングアーキテクチャは、新しい視点によく一般化するが、そのメカニズムはよく理解されていない。
一般化の一般的な3つのモデルについて考察する: (i) 完全3次元一般化, (ii) 純粋2次元マッチング, (iii) ビューの線形結合に基づくマッチング。
- 参考スコア(独自算出の注目度): 1.9685138481667885
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual object recognition systems need to generalize from a set of 2D
training views to novel views. The question of how the human visual system can
generalize to novel views has been studied and modeled in psychology, computer
vision, and neuroscience. Modern deep learning architectures for object
recognition generalize well to novel views, but the mechanisms are not well
understood. In this paper, we characterize the ability of common deep learning
architectures to generalize to novel views. We formulate this as a supervised
classification task where labels correspond to unique 3D objects and examples
correspond to 2D views of the objects at different 3D orientations. We consider
three common models of generalization to novel views: (i) full 3D
generalization, (ii) pure 2D matching, and (iii) matching based on a linear
combination of views. We find that deep models generalize well to novel views,
but they do so in a way that differs from all these existing models.
Extrapolation to views beyond the range covered by views in the training set is
limited, and extrapolation to novel rotation axes is even more limited,
implying that the networks do not infer full 3D structure, nor use linear
interpolation. Yet, generalization is far superior to pure 2D matching. These
findings help with designing datasets with 2D views required to achieve 3D
generalization. Code to reproduce our experiments is publicly available:
https://github.com/shoaibahmed/investigating_3d_generalization.git
- Abstract(参考訳): 視覚物体認識システムは、2次元のトレーニングビューから新しいビューに一般化する必要がある。
人間の視覚システムがどのように新しい視点に一般化できるかという問題は、心理学、コンピュータビジョン、神経科学で研究され、モデル化されている。
オブジェクト認識のための現代のディープラーニングアーキテクチャは、新しい視点によく一般化するが、メカニズムはよく理解されていない。
本稿では,一般的なディープラーニングアーキテクチャが新規な視点に一般化する能力を特徴付ける。
これは、ラベルがユニークな3dオブジェクトに対応し、サンプルが異なる3d方向のオブジェクトの2dビューに対応する教師付き分類タスクとして定式化します。
一般化の一般的な3つのモデルを考える。
(i)完全な3次元一般化
(ii)純粋な2次元マッチング、および
(iii)ビューの線形な組み合わせに基づくマッチング。
深いモデルは、新しいビューにうまく一般化するが、これらすべての既存モデルと異なる方法でそれを実現している。
トレーニングセットのビューがカバーする範囲を超えたビューの補間は制限され、新しい回転軸への補間は更に制限され、ネットワークが完全な3d構造を推論したり、線形補間を使ったりしないことを意味する。
しかし、一般化は純粋な2Dマッチングよりもはるかに優れている。
これらの結果は,3次元一般化を実現するために必要な2次元ビューを備えたデータセットの設計に役立つ。
実験を再現するコードは、https://github.com/shoaibahmed/investigating_3d_ generalization.git.comで公開されている。
関連論文リスト
- Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Disentangling 3D Prototypical Networks For Few-Shot Concept Learning [29.02523358573336]
本稿では,RGB-D画像をオブジェクトの形状やスタイルや背景シーンの地図に分解するニューラルネットワークアーキテクチャを提案する。
我々のネットワークには、画像形成過程、世界シーンの3次元幾何学、形状スタイルの相互作用を反映したアーキテクチャバイアスが組み込まれています。
論文 参考訳(メタデータ) (2020-11-06T14:08:27Z) - Learning to Reconstruct and Segment 3D Objects [4.709764624933227]
我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
論文 参考訳(メタデータ) (2020-10-19T15:09:04Z) - AUTO3D: Novel view synthesis through unsupervisely learned variational
viewpoint and global 3D representation [27.163052958878776]
本稿では,ポーズ・インスペクションを伴わない単一の2次元画像から学習に基づく新規ビュー・シンセサイザーを目標とする。
本研究では,学習済みの相対的目的/回転と暗黙的グローバルな3次元表現を両立させるために,エンドツーエンドの訓練可能な条件変分フレームワークを構築した。
本システムでは,3次元再構成を明示的に行うことなく,暗黙的に3次元理解を行うことができる。
論文 参考訳(メタデータ) (2020-07-13T18:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。