論文の概要: Humans Beat Deep Networks at Recognizing Objects in Unusual Poses, Given
Enough Time
- arxiv url: http://arxiv.org/abs/2402.03973v1
- Date: Tue, 6 Feb 2024 13:06:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 15:10:22.396035
- Title: Humans Beat Deep Networks at Recognizing Objects in Unusual Poses, Given
Enough Time
- Title(参考訳): 人間は、異常なポーズで物体を認識することでディープネットワークを打ち負かす
- Authors: Netta Ollikka, Amro Abbas, Andrea Perin, Markku Kilpel\"ainen,
St\'ephane Deny
- Abstract要約: 人間は、最先端の事前訓練ネットワークとは対照的に、異常なポーズで物体を認識するのが得意である。
画像の露出時間を制限するため、人間のパフォーマンスはディープネットワークのレベルに低下する。
時間制限された人間でさえ、フィードフォワードのディープネットワークと異なる。
- 参考スコア(独自算出の注目度): 1.6874375111244329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning is closing the gap with humans on several object recognition
benchmarks. Here we investigate this gap in the context of challenging images
where objects are seen from unusual viewpoints. We find that humans excel at
recognizing objects in unusual poses, in contrast with state-of-the-art
pretrained networks (EfficientNet, SWAG, ViT, SWIN, BEiT, ConvNext) which are
systematically brittle in this condition. Remarkably, as we limit image
exposure time, human performance degrades to the level of deep networks,
suggesting that additional mental processes (requiring additional time) take
place when humans identify objects in unusual poses. Finally, our analysis of
error patterns of humans vs. networks reveals that even time-limited humans are
dissimilar to feed-forward deep networks. We conclude that more work is needed
to bring computer vision systems to the level of robustness of the human visual
system. Understanding the nature of the mental processes taking place during
extra viewing time may be key to attain such robustness.
- Abstract(参考訳): ディープラーニングは、いくつかのオブジェクト認識ベンチマークで人間とのギャップを埋めようとしている。
ここでは、このギャップを、珍しい視点からオブジェクトを見ることができる挑戦的な画像の文脈で検討する。
我々は,この条件下では系統的に脆弱である最先端の事前訓練ネットワーク(EfficientNet, SWAG, ViT, SWIN, BEiT, ConvNext)と対照的に,異常なポーズにおける物体の認識が優れていることを発見した。
画像の露出時間を制限すると、人間のパフォーマンスはディープネットワークのレベルに低下し、人間が異常なポーズで物体を特定すると、追加の精神的プロセス(追加の時間を必要とする)が発生することを示唆している。
最後に、人間とネットワークのエラーパターンの分析により、時間制限された人間でさえ、フィードフォワードの深層ネットワークと異なることが判明した。
コンピュータビジョンシステムを人間の視覚システムの堅牢性レベルに持ち込むには、より多くの作業が必要であると結論づける。
余分な視聴時間の間に起こる精神過程の性質を理解することが、そのような堅牢性を達成する鍵となるかもしれない。
関連論文リスト
- Degraded Polygons Raise Fundamental Questions of Neural Network
Perception [0.0]
我々は、30年以上前に人間の視覚の認識・コンポーネント理論で導入された、劣化中の画像の復元作業を再考する。
周辺劣化した正多角形の大規模データセットを高速に生成するための自動形状復元テストを実装した。
この単純なタスクにおけるニューラルネットワークの振舞いは、人間の振舞いと矛盾する。
論文 参考訳(メタデータ) (2023-06-08T06:02:39Z) - Scene-aware Egocentric 3D Human Pose Estimation [72.57527706631964]
頭部に1台の魚眼カメラを装着したエゴセントリックな3Dポーズ推定は、仮想現実や拡張現実における多くの応用により、近年注目を集めている。
既存の方法はまだ、人間の体が非常に隠蔽されている、あるいはシーンと密接な相互作用がある、挑戦的なポーズに苦慮している。
本研究では,シーン制約による自己中心型ポーズの予測を導くシーン認識型自己中心型ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T21:35:39Z) - A Brief Survey on Person Recognition at a Distance [46.47338660858037]
遠くにいる人物の認識には、ドローンや監視カメラのような長距離イメージングシステムによって収集された画像やビデオに現れる人物の身元を認識する必要がある。
近年のディープ畳み込みニューラルネットワーク(DCNN)の進歩にもかかわらず、これは依然として困難である。
論文 参考訳(メタデータ) (2022-12-17T22:15:10Z) - Robustness of Humans and Machines on Object Recognition with Extreme
Image Transformations [0.0]
物体認識タスクにおいて、画像変換の新たなセットを導入し、人間とネットワークの評価を行う。
人間は高い精度で物体を認識できる一方で、いくつかの共通ネットワークの性能は急速に低下することがわかった。
論文 参考訳(メタデータ) (2022-05-09T17:15:54Z) - Ultrafast Image Categorization in Biology and Neural Models [0.0]
生態学的に人間に関係のある2つの独立したタスクについて,標準VGG 16 CNNを再訓練した。
ネットワークの再トレーニングは、精神物理学的なタスクで報告されたのに匹敵する、人間のようなパフォーマンスのレベルを達成することを示す。
論文 参考訳(メタデータ) (2022-05-07T11:19:40Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z) - TimeConvNets: A Deep Time Windowed Convolution Neural Network Design for
Real-time Video Facial Expression Recognition [93.0013343535411]
本研究では、リアルタイムな映像表情認識を目的とした、新しい時間窓付き畳み込みニューラルネットワーク設計(TimeConvNets)について検討する。
我々は,TimeConvNetsが表情の過度なニュアンスを捕捉し,低い推論時間を維持しながら分類精度を高めることができることを示した。
論文 参考訳(メタデータ) (2020-03-03T20:58:52Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。