論文の概要: Hierarchical Abstraction Enables Human-Like 3D Object Recognition in Deep Learning Models
- arxiv url: http://arxiv.org/abs/2507.09830v1
- Date: Sun, 13 Jul 2025 23:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.066523
- Title: Hierarchical Abstraction Enables Human-Like 3D Object Recognition in Deep Learning Models
- Title(参考訳): ディープラーニングモデルにおけるヒューマンライクな3次元物体認識を可能にする階層的抽象化
- Authors: Shuhao Fu, Philip J. Kellman, Hongjing Lu,
- Abstract要約: 人間とディープラーニングモデルの両方が、粗い視覚情報で描かれた3D形状からオブジェクトを認識することができる。
これらのモデルが、人間の視覚が物体認識に用いているものと類似した3次元形状の表現を発達させるかどうかは不明である。
- 参考スコア(独自算出の注目度): 1.7341654854802664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Both humans and deep learning models can recognize objects from 3D shapes depicted with sparse visual information, such as a set of points randomly sampled from the surfaces of 3D objects (termed a point cloud). Although deep learning models achieve human-like performance in recognizing objects from 3D shapes, it remains unclear whether these models develop 3D shape representations similar to those used by human vision for object recognition. We hypothesize that training with 3D shapes enables models to form representations of local geometric structures in 3D shapes. However, their representations of global 3D object shapes may be limited. We conducted two human experiments systematically manipulating point density and object orientation (Experiment 1), and local geometric structure (Experiment 2). Humans consistently performed well across all experimental conditions. We compared two types of deep learning models, one based on a convolutional neural network (DGCNN) and the other on visual transformers (point transformer), with human performance. We found that the point transformer model provided a better account of human performance than the convolution-based model. The advantage mainly results from the mechanism in the point transformer model that supports hierarchical abstraction of 3D shapes.
- Abstract(参考訳): 人間も深層学習モデルも、3Dオブジェクトの表面からランダムにサンプリングされた点(点雲)の集合など、粗い視覚情報で描かれた3D形状からオブジェクトを認識することができる。
深層学習モデルでは3次元形状から物体を認識できるが,人間の視覚と類似した3次元形状の表現が物体認識に用いられているかは定かではない。
モデルが3次元形状の局所的な幾何学的構造の表現を3次元形状で表現できるという仮説を立てる。
しかし、大域的な3次元オブジェクト形状の表現は限られているかもしれない。
点密度と物体の向きを系統的に操作する2つの実験(実験1)と局所幾何学的構造(実験2)を行った。
人間はあらゆる実験条件で順調に行動した。
我々は、畳み込みニューラルネットワーク(DGCNN)と視覚変換器(ポイントトランス)の2種類のディープラーニングモデルと、人間のパフォーマンスを比較した。
点変圧器モデルは,畳み込みモデルよりも人的性能の指標として優れていることがわかった。
この利点は、主に3次元形状の階層的抽象化をサポートするポイントトランスフォーマーモデルのメカニズムから生じる。
関連論文リスト
- Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature Space [58.623106094568776]
3Dモデル(3DMM)は、オブジェクトカテゴリの形状や外観を表現する強力なツールである。
我々は,オブジェクト中心ビデオのコレクションから,オブジェクトの3DMMを自己管理的に学習する新しい手法であるCommon3Dを導入する。
Common3Dは、様々な視覚タスクをゼロショットで解くことができる最初の完全に自己教師された方法である。
論文 参考訳(メタデータ) (2025-04-30T15:42:23Z) - Learning Internal Representations of 3D Transformations from 2D
Projected Inputs [13.029330360766595]
本研究では, モデルが2次元投影点から深度を推定し, 2次元トレーニング刺激から3次元回転変換を学習し, 精神物理学的構造に基づく運動実験における人間のパフォーマンスと比較する。
論文 参考訳(メタデータ) (2023-03-31T02:43:01Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Learning to Generate 3D Shapes from a Single Example [28.707149807472685]
本稿では,入力形状の幾何学的特徴を空間的範囲にわたって捉えるために,マルチスケールのGANモデルを提案する。
我々は、外部の監督や手動のアノテーションを必要とせずに、基準形状のボクセルピラミッドで生成モデルを訓練する。
結果の形状は異なるスケールで変化を示し、同時に基準形状のグローバルな構造を保持する。
論文 参考訳(メタデータ) (2022-08-05T01:05:32Z) - Disentangled3D: Learning a 3D Generative Model with Disentangled
Geometry and Appearance from Monocular Images [94.49117671450531]
最先端の3D生成モデルは、合成に神経的な3Dボリューム表現を使用するGANである。
本稿では,単分子観察だけで物体の絡み合ったモデルを学ぶことができる3D GANを設計する。
論文 参考訳(メタデータ) (2022-03-29T22:03:18Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - Generative VoxelNet: Learning Energy-Based Models for 3D Shape Synthesis
and Analysis [143.22192229456306]
本稿では,体積形状を表す3次元エネルギーモデルを提案する。
提案モデルの利点は6倍である。
実験により,提案モデルが高品質な3d形状パターンを生成できることが実証された。
論文 参考訳(メタデータ) (2020-12-25T06:09:36Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z) - Shape Prior Deformation for Categorical 6D Object Pose and Size
Estimation [62.618227434286]
RGB-D画像から見えないオブジェクトの6Dポーズとサイズを復元する新しい学習手法を提案する。
本研究では,事前学習したカテゴリ形状からの変形を明示的にモデル化することにより,3次元オブジェクトモデルを再構築するディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-07-16T16:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。