論文の概要: Partial success in closing the gap between human and machine vision
- arxiv url: http://arxiv.org/abs/2106.07411v1
- Date: Mon, 14 Jun 2021 13:23:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:35:40.792467
- Title: Partial success in closing the gap between human and machine vision
- Title(参考訳): 人間と機械の視界のギャップを埋める部分的成功
- Authors: Robert Geirhos, Kantharaju Narayanappa, Benjamin Mitzkus, Tizian
Thieringer, Matthias Bethge, Felix A. Wichmann, Wieland Brendel
- Abstract要約: 数年前、最初のCNNがImageNetで人間のパフォーマンスを上回った。
人間のビジョンとマシンビジョンのギャップを埋める作業は進んでいますか?
我々は、広範囲なアウト・オブ・ディストリビューション(OOD)データセット上で、人間のオブザーバをテストした。
- 参考スコア(独自算出の注目度): 30.78663978510427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A few years ago, the first CNN surpassed human performance on ImageNet.
However, it soon became clear that machines lack robustness on more challenging
test cases, a major obstacle towards deploying machines "in the wild" and
towards obtaining better computational models of human visual perception. Here
we ask: Are we making progress in closing the gap between human and machine
vision? To answer this question, we tested human observers on a broad range of
out-of-distribution (OOD) datasets, adding the "missing human baseline" by
recording 85,120 psychophysical trials across 90 participants. We then
investigated a range of promising machine learning developments that crucially
deviate from standard supervised CNNs along three axes: objective function
(self-supervised, adversarially trained, CLIP language-image training),
architecture (e.g. vision transformers), and dataset size (ranging from 1M to
1B). Our findings are threefold. (1.) The longstanding robustness gap between
humans and CNNs is closing, with the best models now matching or exceeding
human performance on most OOD datasets. (2.) There is still a substantial
image-level consistency gap, meaning that humans make different errors than
models. In contrast, most models systematically agree in their categorisation
errors, even substantially different ones like contrastive self-supervised vs.
standard supervised models. (3.) In many cases, human-to-model consistency
improves when training dataset size is increased by one to three orders of
magnitude. Our results give reason for cautious optimism: While there is still
much room for improvement, the behavioural difference between human and machine
vision is narrowing. In order to measure future progress, 17 OOD datasets with
image-level human behavioural data are provided as a benchmark here:
https://github.com/bethgelab/model-vs-human/
- Abstract(参考訳): 数年前、最初のCNNがImageNetで人間のパフォーマンスを上回った。
しかしすぐに、マシンはより困難なテストケースに堅牢性を持たず、マシンを"野生"に展開し、人間の視覚知覚のより良い計算モデルを得るための大きな障害であることが明らかになった。
人間のビジョンとマシンビジョンのギャップを埋める作業は進んでいますか?
この疑問に答えるために、90人を対象に85,120人のサイコ物理実験を録音し、「人間のベースラインを欠く」ことを付け加えた。
次に,目標関数(自己教師あり,敵意訓練,クリップ言語画像訓練),アーキテクチャ(例)の3軸に沿って,標準教師ありcnnから大きく逸脱する有望な機械学習開発について検討した。
vision transformer)とデータセットサイズ(1Mから1Bまで)。
私たちの発見は3倍です。
(1.)
人間とCNNの長年の堅牢性ギャップは閉ざされており、最高のモデルがほとんどのOODデータセットで人間のパフォーマンスにマッチまたは超えている。
(2.)
画像レベルの一貫性のギャップは依然として大きいため、人間はモデルとは異なるエラーを犯すことになる。
対照的に、ほとんどのモデルは分類誤差において体系的に一致しており、対照的な自己教師付きモデルと標準教師付きモデルとでは実質的に異なるモデルである。
(3.)
多くの場合、トレーニングデータセットのサイズが1~3桁に大きくなると、人間とモデル間の一貫性が向上する。
私たちの結果は、慎重な楽観主義の理由を与えます。改善の余地はまだまだありますが、人間とマシンビジョンの行動の違いは狭まっているのです。
今後の進捗を測定するため、画像レベルの人間の行動データを含む17のOODデータセットがベンチマークとして提供されている。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Sapiens: Foundation for Human Vision Models [14.72839332332364]
サピエンス(Sapiens)は、4つの基本的人間中心の視覚タスクのモデル群である。
我々のモデルは1Kの高分解能推論をサポートし、個々のタスクに容易に適応できる。
我々は、人間の画像のキュレートされたデータセット上での自己教師付き事前訓練が、多種多様な人間中心のタスクのパフォーマンスを著しく向上させるのを観察する。
論文 参考訳(メタデータ) (2024-08-22T17:37:27Z) - Cross-view and Cross-pose Completion for 3D Human Understanding [22.787947086152315]
画像のみを用いて人間中心のデータを扱う自己教師付き学習に基づく事前学習手法を提案する。
身体中心タスクのためのモデルと手中心タスクのためのモデルを事前訓練する。
汎用的なトランスフォーマーアーキテクチャでは、これらのモデルは、広範囲の人間中心の下流タスクにおいて、既存の自己教師付き事前学習方法より優れている。
論文 参考訳(メタデータ) (2023-11-15T16:51:18Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - What's "up" with vision-language models? Investigating their struggle
with spatial reasoning [76.2406963762722]
3つの新しいコーパスは基本空間関係のモデル理解を定量化する。
我々は18の視覚言語(VL)モデルを評価し、全てが不十分であることが判明した。
私たちはこの驚くべき行動の原因を研究することで結論付ける。
論文 参考訳(メタデータ) (2023-10-30T17:50:15Z) - Human alignment of neural network representations [22.671101285994013]
ニューラルネットワークで学習した表現と行動応答から推定される人間の心的表現のアライメントに影響を与える要因について検討する。
モデルスケールとアーキテクチャは基本的に人間の行動応答に影響を与えないことがわかった。
食物や動物などの人間の概念はニューラルネットワークによってよく表現されているのに対し、ロイヤルやスポーツ関連の物体はそうではない。
論文 参考訳(メタデータ) (2022-11-02T15:23:16Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Are Convolutional Neural Networks or Transformers more like human
vision? [9.83454308668432]
視覚タスクにおけるCNNよりも注意に基づくネットワークの方が精度が高いことを示す。
これらの結果は、人間の視覚モデルの構築だけでなく、人間の視覚的物体認識の理解にも影響を及ぼす。
論文 参考訳(メタデータ) (2021-05-15T10:33:35Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - On the surprising similarities between supervised and self-supervised
models [29.04088957917865]
自己教師ネットワークと教師付きモデルと人間の行動を比較した。
現在の自己監督型CNNは、監督型CNNの4つの重要な特徴を共有している。
将来の自己管理モデルは、教師付きモデルと異なる振る舞いをすることを期待しています。
論文 参考訳(メタデータ) (2020-10-16T13:28:13Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。