論文の概要: Approaching human 3D shape perception with neurally mappable models
- arxiv url: http://arxiv.org/abs/2308.11300v1
- Date: Tue, 22 Aug 2023 09:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 13:24:22.098032
- Title: Approaching human 3D shape perception with neurally mappable models
- Title(参考訳): ニューラルマップモデルによる3次元形状知覚へのアプローチ
- Authors: Thomas P. O'Connell, Tyler Bonnen, Yoni Friedman, Ayush Tewari, Josh
B. Tenenbaum, Vincent Sitzmann, Nancy Kanwisher
- Abstract要約: 人間は力ずくで物体の3次元形状を推測する。
現在の計算モデルでは、視点を越えてオブジェクトの形状にマッチする人間の能力を捉えていない。
3D Light Field Networkは、人間とよく一致した3Dマッチング判断をサポートする。
- 参考スコア(独自算出の注目度): 15.090436065092716
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Humans effortlessly infer the 3D shape of objects. What computations underlie
this ability? Although various computational models have been proposed, none of
them capture the human ability to match object shape across viewpoints. Here,
we ask whether and how this gap might be closed. We begin with a relatively
novel class of computational models, 3D neural fields, which encapsulate the
basic principles of classic analysis-by-synthesis in a deep neural network
(DNN). First, we find that a 3D Light Field Network (3D-LFN) supports 3D
matching judgments well aligned to humans for within-category comparisons,
adversarially-defined comparisons that accentuate the 3D failure cases of
standard DNN models, and adversarially-defined comparisons for algorithmically
generated shapes with no category structure. We then investigate the source of
the 3D-LFN's ability to achieve human-aligned performance through a series of
computational experiments. Exposure to multiple viewpoints of objects during
training and a multi-view learning objective are the primary factors behind
model-human alignment; even conventional DNN architectures come much closer to
human behavior when trained with multi-view objectives. Finally, we find that
while the models trained with multi-view learning objectives are able to
partially generalize to new object categories, they fall short of human
alignment. This work provides a foundation for understanding human shape
inferences within neurally mappable computational architectures and highlights
important questions for future work.
- Abstract(参考訳): 人間は力ずくで物体の3次元形状を推測する。
この能力を支える計算は何か?
様々な計算モデルが提案されているが、いずれも視点によって物体の形状にマッチする人間の能力を捉えていない。
ここでは、このギャップが閉ざされるかどうかと、その方法について尋ねる。
深層ニューラルネットワーク(dnn)における古典的解析・合成の基本原理をカプセル化した,比較的新しい計算モデルである3次元ニューラルフィールドから始める。
まず、3次元光場ネットワーク(3D-LFN)は、標準DNNモデルの3次元故障事例をアクセントする逆定義比較と、アルゴリズムが生成する形状の逆定義比較を、カテゴリー内比較のために人間に適切に整合した3次元マッチング判断をサポートする。
次に,3D-LFNが人間に適応できる能力の源泉について,一連の計算実験を通して検討する。
トレーニング中のオブジェクトの複数の視点への露出と、マルチビュー学習の目的が、モデルと人間のアライメントの背後にある主要な要因である。
最後に、多視点学習目標で訓練されたモデルは、新しい対象カテゴリに部分的に一般化できるが、人間のアライメントに欠けることがわかった。
この研究は、ニューラルマップ可能な計算アーキテクチャ内で人間の形状推論を理解するための基礎を提供し、将来の作業において重要な質問を強調する。
関連論文リスト
- Cross-view and Cross-pose Completion for 3D Human Understanding [22.787947086152315]
画像のみを用いて人間中心のデータを扱う自己教師付き学習に基づく事前学習手法を提案する。
身体中心タスクのためのモデルと手中心タスクのためのモデルを事前訓練する。
汎用的なトランスフォーマーアーキテクチャでは、これらのモデルは、広範囲の人間中心の下流タスクにおいて、既存の自己教師付き事前学習方法より優れている。
論文 参考訳(メタデータ) (2023-11-15T16:51:18Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Evaluating alignment between humans and neural network representations in image-based learning tasks [5.657101730705275]
トレーニング済みの860ドルのニューラルネットワークモデルの表現が、人間の学習軌跡にどのようにマッピングされているかテストしました。
トレーニングデータセットのサイズは人間の選択に沿った中核的な決定要因であるのに対し、マルチモーダルデータ(テキストと画像)による対照的なトレーニングは、人間の一般化を予測するために現在公開されているモデルの一般的な特徴であることがわかった。
結論として、事前訓練されたニューラルネットワークは、タスク間で伝達可能な認知の基本的な側面を捉えているように見えるため、認知モデルのための表現を抽出するのに役立つ。
論文 参考訳(メタデータ) (2023-06-15T08:18:29Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - Multi-NeuS: 3D Head Portraits from Single Image with Neural Implicit
Functions [70.04394678730968]
人間の頭部の3次元再構築を1つか2つの視点から提案する。
基盤となる神経アーキテクチャは、オブジェクトを学習し、モデルを一般化することである。
私たちのモデルは、100本のビデオやワンショットの3Dスキャンに、斬新な頭を収めることができます。
論文 参考訳(メタデータ) (2022-09-07T21:09:24Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Learning Temporal 3D Human Pose Estimation with Pseudo-Labels [3.0954251281114513]
自己監督型3次元ポーズ推定のための簡易かつ効果的なアプローチを提案する。
我々は、マルチビューカメラシステムの2Dボディポーズ推定を三角測量に頼っている。
提案手法はHuman3.6MとMPI-INF-3DHPベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-14T17:40:45Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - Self-Supervised 3D Human Pose Estimation with Multiple-View Geometry [2.7541825072548805]
本稿では,複数視点カメラシステムに基づく1人の人物の3次元ポーズ推定のための自己教師付き学習アルゴリズムを提案する。
そこで本研究では,2次元・3次元の立体ポーズが不要な4自由度関数学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-17T17:31:24Z) - Learning Transferable Kinematic Dictionary for 3D Human Pose and Shape
Reconstruction [15.586347115568973]
ヒト関節の3次元回転の解空間を明示的に正規化するキネマティック辞書を提案する。
ニューラルネットワークのトレーニング中にシェイプアノテーションを使わずに,エンドツーエンドの3D再構築を実現する。
提案手法は、Human3.6M, MPI-INF-3DHP, LSPなどの大規模データセットの競合結果を得る。
論文 参考訳(メタデータ) (2021-04-02T09:24:29Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。