論文の概要: The 3D-PC: a benchmark for visual perspective taking in humans and machines
- arxiv url: http://arxiv.org/abs/2406.04138v1
- Date: Thu, 6 Jun 2024 14:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:30:04.825461
- Title: The 3D-PC: a benchmark for visual perspective taking in humans and machines
- Title(参考訳): 3D-PC:人間と機械の視覚的視点評価のためのベンチマーク
- Authors: Drew Linsley, Peisen Zhou, Alekh Karkada Ashok, Akash Nagaraj, Gaurav Gaonkar, Francis E Lewis, Zygmunt Pizlo, Thomas Serre,
- Abstract要約: ディープニューラルネットワーク(DNN)は、大規模な画像データセットのトレーニング後に3Dシーンを分析できるようになる、という報告が増えている。
DNNにおけるこの創発的3次元解析能力は、3次元知覚課題(3D-PC)を伴う視覚的視点撮影(VPT)に十分か検討した。
3D-PCは3つの3次元解析タスクからなる。
- 参考スコア(独自算出の注目度): 11.965236208112753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual perspective taking (VPT) is the ability to perceive and reason about the perspectives of others. It is an essential feature of human intelligence, which develops over the first decade of life and requires an ability to process the 3D structure of visual scenes. A growing number of reports have indicated that deep neural networks (DNNs) become capable of analyzing 3D scenes after training on large image datasets. We investigated if this emergent ability for 3D analysis in DNNs is sufficient for VPT with the 3D perception challenge (3D-PC): a novel benchmark for 3D perception in humans and DNNs. The 3D-PC is comprised of three 3D-analysis tasks posed within natural scene images: 1. a simple test of object depth order, 2. a basic VPT task (VPT-basic), and 3. another version of VPT (VPT-Strategy) designed to limit the effectiveness of "shortcut" visual strategies. We tested human participants (N=33) and linearly probed or text-prompted over 300 DNNs on the challenge and found that nearly all of the DNNs approached or exceeded human accuracy in analyzing object depth order. Surprisingly, DNN accuracy on this task correlated with their object recognition performance. In contrast, there was an extraordinary gap between DNNs and humans on VPT-basic. Humans were nearly perfect, whereas most DNNs were near chance. Fine-tuning DNNs on VPT-basic brought them close to human performance, but they, unlike humans, dropped back to chance when tested on VPT-perturb. Our challenge demonstrates that the training routines and architectures of today's DNNs are well-suited for learning basic 3D properties of scenes and objects but are ill-suited for reasoning about these properties like humans do. We release our 3D-PC datasets and code to help bridge this gap in 3D perception between humans and machines.
- Abstract(参考訳): 視覚的な視点を取る(VPT)とは、他人の視点を知覚し、解釈する能力である。
それは人間の知性の本質的な特徴であり、それは人生の最初の10年間で発展し、視覚シーンの3D構造を処理する能力を必要とする。
ディープニューラルネットワーク(DNN)は、大規模な画像データセットのトレーニング後に3Dシーンを分析できるようになる、という報告が増えている。
DNNにおけるこの3D解析能力は、人間とDNNにおける3D知覚の新たなベンチマークである3D-PCを用いたVPTにとって十分かどうかを検討した。
3D-PCは3つの3次元解析タスクからなる。
1. オブジェクト深度順序の簡単なテスト。
2.基本的なVPTタスク(VPTベース)、及び
3.「ショートカット」視覚戦略の有効性を制限するために設計されたVPT(VPT-Strategy)の別のバージョン。
被験者(N=33)を検定し,300以上のDNNを直線的に探り,テキストで分析したところ,ほぼすべてのDNNが対象の深度を解析するためにヒトの精度に近づいたか超えた。
驚くべきことに、このタスクにおけるDNNの精度は、オブジェクト認識性能と相関する。
対照的に、VPTベース上では、DNNと人間の間には異常なギャップがあった。
人間はほとんど完璧だったが、ほとんどのDNNはチャンスに近かった。
VPT-basicで微調整されたDNNは、人間のパフォーマンスに近づいたものの、VPT-perturbでテストすると、人間とは異なり、チャンスを逃した。
我々の課題は、今日のDNNのトレーニングルーチンとアーキテクチャが、シーンやオブジェクトの基本的な3D特性を学ぶのに適しているが、人間のようにこれらの特性を推論するのに不適であることを実証している。
私たちは、人間と機械の間の3D知覚のギャップを埋めるために、私たちの3D-PCデータセットとコードをリリースします。
関連論文リスト
- Agent3D-Zero: An Agent for Zero-shot 3D Understanding [79.88440434836673]
Agent3D-Zeroは、3Dシーン理解に対処する革新的な3D対応エージェントフレームワークである。
本稿では,3次元理解のための視点を積極的に選択し,分析することで,VLM(Large Visual Language Model)を利用する新しい手法を提案する。
Agent3D-Zeroの独特な利点は、新しい視覚的プロンプトの導入である。
論文 参考訳(メタデータ) (2024-03-18T14:47:03Z) - SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction [77.15924044466976]
本稿では,ビデオシーケンスのみを用いて,自己指導型3D習熟学習手法を提案する。
まず、画像を3D空間(例えば鳥の目視)に変換し、シーンの3D表現を得る。
そして、前と将来のフレームの2D画像を自己超越信号として描画し、3D表現を学習する。
論文 参考訳(メタデータ) (2023-11-21T17:59:14Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Approaching human 3D shape perception with neurally mappable models [15.090436065092716]
人間は力ずくで物体の3次元形状を推測する。
現在の計算モデルでは、視点を越えてオブジェクトの形状にマッチする人間の能力を捉えていない。
この研究は、ニューラルマップ可能な計算アーキテクチャ内の人間の形状推論を理解する基盤を提供する。
論文 参考訳(メタデータ) (2023-08-22T09:29:05Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - Learning to Estimate 3D Human Pose from Point Cloud [13.27496851711973]
本稿では,複雑な人体構造物の表面をモデル化するための入力データとして,点雲データを用いた3次元ポーズ推定のための深層人体ポーズネットワークを提案する。
2つの公開データセットに対する実験により,従来の最先端手法よりも精度が高いことを示す。
論文 参考訳(メタデータ) (2022-12-25T14:22:01Z) - Harmonizing the object recognition strategies of deep neural networks
with humans [10.495114898741205]
最先端のディープニューラルネットワーク(DNN)は、精度が向上するにつれて、人間との整合性が低下していることを示す。
我々の研究は、現在DNNの設計を導くスケーリング法則が、人間の視覚を悪化させるモデルを生み出した最初の例である。
論文 参考訳(メタデータ) (2022-11-08T20:03:49Z) - Super Images -- A New 2D Perspective on 3D Medical Imaging Analysis [0.0]
トレーニング中に3次元知識を効率的に埋め込んで3次元データを扱うための,シンプルで効果的な2次元手法を提案する。
本手法は3次元画像にスライスを並べて超高分解能画像を生成する。
2次元ネットワークのみを利用した3次元ネットワークを実現する一方で、モデルの複雑さはおよそ3倍に減少する。
論文 参考訳(メタデータ) (2022-05-05T09:59:03Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - SPARE3D: A Dataset for SPAtial REasoning on Three-View Line Drawings [9.651400924429336]
SPARE3Dは、認知科学と心理計測に基づいて、ビュー一貫性、カメラポーズ、形状生成に関する3種類の2D-3D推論タスクを含む。
次に,課題ごとの真理回答を基礎として,多数の課題を自動生成する手法を設計する。
実験によると、畳み込みネットワークは多くの視覚学習タスクにおいて超人的性能を達成したが、SPARE3Dタスクにおける空間推論性能は平均人的性能よりも低いか、あるいはランダムな推測に近いかのどちらかである。
論文 参考訳(メタデータ) (2020-03-31T09:01:27Z) - 2.75D: Boosting learning by representing 3D Medical imaging to 2D
features for small data [54.223614679807994]
3D畳み込みニューラルネットワーク(CNN)は、多くのディープラーニングタスクにおいて、2D CNNよりも優れたパフォーマンスを示し始めている。
3D CNNにトランスファー学習を適用することは、パブリックにトレーニング済みの3Dモデルがないために困難である。
本研究では,ボリュームデータの2次元戦略的表現,すなわち2.75Dを提案する。
その結果,2次元CNNネットワークをボリューム情報学習に用いることが可能となった。
論文 参考訳(メタデータ) (2020-02-11T08:24:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。