論文の概要: Human-level 3D shape perception emerges from multi-view learning
- arxiv url: http://arxiv.org/abs/2602.17650v1
- Date: Thu, 19 Feb 2026 18:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.411586
- Title: Human-level 3D shape perception emerges from multi-view learning
- Title(参考訳): 多視点学習から人間レベルの3次元形状知覚が出現する
- Authors: Tyler Bonnen, Jitendra Malik, Angjoo Kanazawa,
- Abstract要約: 任意のオブジェクトに対する人間の3次元形状推論を予測するためのモデリングフレームワークを開発する。
我々は、自然主義的な知覚データよりも視覚空間的目的を用いて訓練された新しいニューラルネットワークのクラスでこれを達成した。
人間のレベル3D知覚は、自然主義的な視覚空間データよりもシンプルでスケーラブルな学習目標から生まれる可能性がある。
- 参考スコア(独自算出の注目度): 63.048728487674815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can infer the three-dimensional structure of objects from two-dimensional visual inputs. Modeling this ability has been a longstanding goal for the science and engineering of visual intelligence, yet decades of computational methods have fallen short of human performance. Here we develop a modeling framework that predicts human 3D shape inferences for arbitrary objects, directly from experimental stimuli. We achieve this with a novel class of neural networks trained using a visual-spatial objective over naturalistic sensory data; given a set of images taken from different locations within a natural scene, these models learn to predict spatial information related to these images, such as camera location and visual depth, without relying on any object-related inductive biases. Notably, these visual-spatial signals are analogous to sensory cues readily available to humans. We design a zero-shot evaluation approach to determine the performance of these `multi-view' models on a well established 3D perception task, then compare model and human behavior. Our modeling framework is the first to match human accuracy on 3D shape inferences, even without task-specific training or fine-tuning. Remarkably, independent readouts of model responses predict fine-grained measures of human behavior, including error patterns and reaction times, revealing a natural correspondence between model dynamics and human perception. Taken together, our findings indicate that human-level 3D perception can emerge from a simple, scalable learning objective over naturalistic visual-spatial data. All code, human behavioral data, and experimental stimuli needed to reproduce our findings can be found on our project page.
- Abstract(参考訳): 人間は2次元視覚入力から物体の3次元構造を推測することができる。
この能力のモデリングは、視覚知能の科学と工学の長年の目標であったが、何十年もの計算手法は人間のパフォーマンスに欠けてきた。
そこで我々は,実験刺激から直接,任意の物体に対する人間の3次元形状推定を予測するモデリングフレームワークを開発した。
自然感性データに対する視覚空間的目的を用いた新しいニューラルネットワークのクラスでこれを達成し、自然シーン内の異なる場所から撮影された画像の集合を考えると、これらのモデルは、オブジェクトに関連する帰納的バイアスに頼ることなく、カメラの位置や視覚深度などのこれらの画像に関連する空間情報を予測することを学ぶ。
これらの視覚空間信号は、人間が容易に利用できる感覚的手がかりと類似している。
我々は,これらの「マルチビュー」モデルの性能を,よく確立された3次元知覚タスクで決定するためのゼロショット評価手法を設計し,モデルと人間の行動を比較した。
私たちのモデリングフレームワークは、タスク固有のトレーニングや微調整なしでも、3次元形状の推測に人間の精度を合わせる最初のフレームワークです。
注目すべきは、モデル応答の独立した読み出しは、エラーパターンや反応時間を含む人間の行動のきめ細かい測定を予測し、モデルダイナミクスと人間の知覚との自然な対応を明らかにすることである。
この結果から,人間の3次元知覚は自然主義的視覚空間データよりもシンプルでスケーラブルな学習対象から生まれる可能性が示唆された。
全てのコード、人間の行動データ、そして我々の発見を再現するために必要な実験的な刺激は、我々のプロジェクトページで見ることができる。
関連論文リスト
- Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.277540988829976]
本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。
我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文 参考訳(メタデータ) (2025-03-25T23:55:47Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Approaching human 3D shape perception with neurally mappable models [15.090436065092716]
人間は力ずくで物体の3次元形状を推測する。
現在の計算モデルでは、視点を越えてオブジェクトの形状にマッチする人間の能力を捉えていない。
この研究は、ニューラルマップ可能な計算アーキテクチャ内の人間の形状推論を理解する基盤を提供する。
論文 参考訳(メタデータ) (2023-08-22T09:29:05Z) - Evaluating alignment between humans and neural network representations in image-based learning tasks [5.657101730705275]
トレーニング済みの860ドルのニューラルネットワークモデルの表現が、人間の学習軌跡にどのようにマッピングされているかテストしました。
トレーニングデータセットのサイズは人間の選択に沿った中核的な決定要因であるのに対し、マルチモーダルデータ(テキストと画像)による対照的なトレーニングは、人間の一般化を予測するために現在公開されているモデルの一般的な特徴であることがわかった。
結論として、事前訓練されたニューラルネットワークは、タスク間で伝達可能な認知の基本的な側面を捉えているように見えるため、認知モデルのための表現を抽出するのに役立つ。
論文 参考訳(メタデータ) (2023-06-15T08:18:29Z) - CHORE: Contact, Human and Object REconstruction from a single RGB image [40.817960406002506]
CHOREは、1枚のRGB画像から人間と物体を共同で再構築する方法である。
2つの符号のない距離場で暗黙的に表現された人間と物体の神経再構成を計算する。
提案手法で得られた共同再建がSOTAを著しく上回ることを示す実験を行った。
論文 参考訳(メタデータ) (2022-04-05T18:38:06Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。