論文の概要: Humans Beat Deep Networks at Recognizing Objects in Unusual Poses, Given
Enough Time
- arxiv url: http://arxiv.org/abs/2402.03973v1
- Date: Tue, 6 Feb 2024 13:06:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 15:10:22.396035
- Title: Humans Beat Deep Networks at Recognizing Objects in Unusual Poses, Given
Enough Time
- Title(参考訳): 人間は、異常なポーズで物体を認識することでディープネットワークを打ち負かす
- Authors: Netta Ollikka, Amro Abbas, Andrea Perin, Markku Kilpel\"ainen,
St\'ephane Deny
- Abstract要約: 人間は、最先端の事前訓練ネットワークとは対照的に、異常なポーズで物体を認識するのが得意である。
画像の露出時間を制限するため、人間のパフォーマンスはディープネットワークのレベルに低下する。
時間制限された人間でさえ、フィードフォワードのディープネットワークと異なる。
- 参考スコア(独自算出の注目度): 1.6874375111244329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning is closing the gap with humans on several object recognition
benchmarks. Here we investigate this gap in the context of challenging images
where objects are seen from unusual viewpoints. We find that humans excel at
recognizing objects in unusual poses, in contrast with state-of-the-art
pretrained networks (EfficientNet, SWAG, ViT, SWIN, BEiT, ConvNext) which are
systematically brittle in this condition. Remarkably, as we limit image
exposure time, human performance degrades to the level of deep networks,
suggesting that additional mental processes (requiring additional time) take
place when humans identify objects in unusual poses. Finally, our analysis of
error patterns of humans vs. networks reveals that even time-limited humans are
dissimilar to feed-forward deep networks. We conclude that more work is needed
to bring computer vision systems to the level of robustness of the human visual
system. Understanding the nature of the mental processes taking place during
extra viewing time may be key to attain such robustness.
- Abstract(参考訳): ディープラーニングは、いくつかのオブジェクト認識ベンチマークで人間とのギャップを埋めようとしている。
ここでは、このギャップを、珍しい視点からオブジェクトを見ることができる挑戦的な画像の文脈で検討する。
我々は,この条件下では系統的に脆弱である最先端の事前訓練ネットワーク(EfficientNet, SWAG, ViT, SWIN, BEiT, ConvNext)と対照的に,異常なポーズにおける物体の認識が優れていることを発見した。
画像の露出時間を制限すると、人間のパフォーマンスはディープネットワークのレベルに低下し、人間が異常なポーズで物体を特定すると、追加の精神的プロセス(追加の時間を必要とする)が発生することを示唆している。
最後に、人間とネットワークのエラーパターンの分析により、時間制限された人間でさえ、フィードフォワードの深層ネットワークと異なることが判明した。
コンピュータビジョンシステムを人間の視覚システムの堅牢性レベルに持ち込むには、より多くの作業が必要であると結論づける。
余分な視聴時間の間に起こる精神過程の性質を理解することが、そのような堅牢性を達成する鍵となるかもしれない。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Scene-aware Egocentric 3D Human Pose Estimation [72.57527706631964]
頭部に1台の魚眼カメラを装着したエゴセントリックな3Dポーズ推定は、仮想現実や拡張現実における多くの応用により、近年注目を集めている。
既存の方法はまだ、人間の体が非常に隠蔽されている、あるいはシーンと密接な相互作用がある、挑戦的なポーズに苦慮している。
本研究では,シーン制約による自己中心型ポーズの予測を導くシーン認識型自己中心型ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T21:35:39Z) - A Brief Survey on Person Recognition at a Distance [46.47338660858037]
遠くにいる人物の認識には、ドローンや監視カメラのような長距離イメージングシステムによって収集された画像やビデオに現れる人物の身元を認識する必要がある。
近年のディープ畳み込みニューラルネットワーク(DCNN)の進歩にもかかわらず、これは依然として困難である。
論文 参考訳(メタデータ) (2022-12-17T22:15:10Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - Embodied vision for learning object representations [4.211128681972148]
幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
論文 参考訳(メタデータ) (2022-05-12T16:36:27Z) - Robustness of Humans and Machines on Object Recognition with Extreme
Image Transformations [0.0]
物体認識タスクにおいて、画像変換の新たなセットを導入し、人間とネットワークの評価を行う。
人間は高い精度で物体を認識できる一方で、いくつかの共通ネットワークの性能は急速に低下することがわかった。
論文 参考訳(メタデータ) (2022-05-09T17:15:54Z) - Learning Realistic Human Reposing using Cyclic Self-Supervision with 3D
Shape, Pose, and Appearance Consistency [55.94908688207493]
画像品質のギャップを教師付き手法で埋める自己教師型フレームワークSPICEを提案する。
自己超越を可能にする重要な洞察は、様々な方法で人体に関する3D情報を活用することである。
SPICEはDeepFashionデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-10-11T17:48:50Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Perceiving 3D Human-Object Spatial Arrangements from a Single Image in
the Wild [96.08358373137438]
本研究では,世界規模で一貫した3Dシーンにおいて,人間や物体の空間的配置や形状を推定する手法を提案する。
本手法は,シーンレベルやオブジェクトレベルの3D監視を必要とせず,データセット上で動作させる。
論文 参考訳(メタデータ) (2020-07-30T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。