論文の概要: A comparison between humans and AI at recognizing objects in unusual poses
- arxiv url: http://arxiv.org/abs/2402.03973v2
- Date: Thu, 29 Aug 2024 10:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 19:28:43.929693
- Title: A comparison between humans and AI at recognizing objects in unusual poses
- Title(参考訳): 異常なポーズにおける物体認識における人間とAIの比較
- Authors: Netta Ollikka, Amro Abbas, Andrea Perin, Markku Kilpeläinen, Stéphane Deny,
- Abstract要約: 物体が異常なポーズで見えるような難解な画像のギャップについて検討する。
人間はそのようなポーズで物体を認識するのが得意である。
視覚のための深いネットワークは、異常なポーズで体系的に不安定である。
- 参考スコア(独自算出の注目度): 4.229248343585333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning is closing the gap with human vision on several object recognition benchmarks. Here we investigate this gap for challenging images where objects are seen in unusual poses. We find that humans excel at recognizing objects in such poses. In contrast, state-of-the-art deep networks for vision (EfficientNet, SWAG, ViT, SWIN, BEiT, ConvNext) and state-of-the-art large vision-language models (Claude 3.5, Gemini 1.5, GPT-4) are systematically brittle on unusual poses, with the exception of Gemini showing excellent robustness in that condition. As we limit image exposure time, human performance degrades to the level of deep networks, suggesting that additional mental processes (requiring additional time) are necessary to identify objects in unusual poses. An analysis of error patterns of humans vs. networks reveals that even time-limited humans are dissimilar to feed-forward deep networks. In conclusion, our comparison reveals that humans and deep networks rely on different mechanisms for recognizing objects in unusual poses. Understanding the nature of the mental processes taking place during extra viewing time may be key to reproduce the robustness of human vision in silico.
- Abstract(参考訳): ディープラーニングは、いくつかのオブジェクト認識ベンチマークにおける人間のビジョンとのギャップを埋めようとしている。
ここでは、このギャップを、異常なポーズで物体が見える挑戦的な画像に対して検討する。
人間はそのようなポーズで物体を認識するのが得意である。
対照的に、最先端のビジョン用ディープネットワーク(EfficientNet, SWAG, ViT, SWIN, BEiT, ConvNext)と最先端の大規模ビジョン言語モデル(Claude 3.5, Gemini 1.5, GPT-4)は異常なポーズで系統的に不安定である。
画像の露出時間を制限すると、人間のパフォーマンスはディープネットワークのレベルに低下し、異常なポーズで物体を識別するために追加の精神的プロセス(追加の時間を必要とする)が必要であることを示唆する。
人間とネットワークのエラーパターンの分析により、時間制限された人間でさえ、フィードフォワードのディープネットワークと異なることが判明した。
結論として、人間と深層ネットワークは、異常なポーズで物体を認識するための異なるメカニズムに依存していることが明らかとなった。
余分な視聴時間の間に起こる精神過程の性質を理解することは、サイリコにおける人間の視覚の堅牢さを再現する鍵となるかもしれない。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Scene-aware Egocentric 3D Human Pose Estimation [72.57527706631964]
頭部に1台の魚眼カメラを装着したエゴセントリックな3Dポーズ推定は、仮想現実や拡張現実における多くの応用により、近年注目を集めている。
既存の方法はまだ、人間の体が非常に隠蔽されている、あるいはシーンと密接な相互作用がある、挑戦的なポーズに苦慮している。
本研究では,シーン制約による自己中心型ポーズの予測を導くシーン認識型自己中心型ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T21:35:39Z) - A Brief Survey on Person Recognition at a Distance [46.47338660858037]
遠くにいる人物の認識には、ドローンや監視カメラのような長距離イメージングシステムによって収集された画像やビデオに現れる人物の身元を認識する必要がある。
近年のディープ畳み込みニューラルネットワーク(DCNN)の進歩にもかかわらず、これは依然として困難である。
論文 参考訳(メタデータ) (2022-12-17T22:15:10Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - Embodied vision for learning object representations [4.211128681972148]
幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
論文 参考訳(メタデータ) (2022-05-12T16:36:27Z) - Robustness of Humans and Machines on Object Recognition with Extreme
Image Transformations [0.0]
物体認識タスクにおいて、画像変換の新たなセットを導入し、人間とネットワークの評価を行う。
人間は高い精度で物体を認識できる一方で、いくつかの共通ネットワークの性能は急速に低下することがわかった。
論文 参考訳(メタデータ) (2022-05-09T17:15:54Z) - Learning Realistic Human Reposing using Cyclic Self-Supervision with 3D
Shape, Pose, and Appearance Consistency [55.94908688207493]
画像品質のギャップを教師付き手法で埋める自己教師型フレームワークSPICEを提案する。
自己超越を可能にする重要な洞察は、様々な方法で人体に関する3D情報を活用することである。
SPICEはDeepFashionデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-10-11T17:48:50Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Perceiving 3D Human-Object Spatial Arrangements from a Single Image in
the Wild [96.08358373137438]
本研究では,世界規模で一貫した3Dシーンにおいて,人間や物体の空間的配置や形状を推定する手法を提案する。
本手法は,シーンレベルやオブジェクトレベルの3D監視を必要とせず,データセット上で動作させる。
論文 参考訳(メタデータ) (2020-07-30T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。