論文の概要: Are Convolutional Neural Networks or Transformers more like human
vision?
- arxiv url: http://arxiv.org/abs/2105.07197v1
- Date: Sat, 15 May 2021 10:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 09:49:04.358927
- Title: Are Convolutional Neural Networks or Transformers more like human
vision?
- Title(参考訳): 畳み込みニューラルネットワークやトランスフォーマーは人間のビジョンに近いか?
- Authors: Shikhar Tuli, Ishita Dasgupta, Erin Grant, Thomas L. Griffiths
- Abstract要約: 視覚タスクにおけるCNNよりも注意に基づくネットワークの方が精度が高いことを示す。
これらの結果は、人間の視覚モデルの構築だけでなく、人間の視覚的物体認識の理解にも影響を及ぼす。
- 参考スコア(独自算出の注目度): 9.83454308668432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern machine learning models for computer vision exceed humans in accuracy
on specific visual recognition tasks, notably on datasets like ImageNet.
However, high accuracy can be achieved in many ways. The particular decision
function found by a machine learning system is determined not only by the data
to which the system is exposed, but also the inductive biases of the model,
which are typically harder to characterize. In this work, we follow a recent
trend of in-depth behavioral analyses of neural network models that go beyond
accuracy as an evaluation metric by looking at patterns of errors. Our focus is
on comparing a suite of standard Convolutional Neural Networks (CNNs) and a
recently-proposed attention-based network, the Vision Transformer (ViT), which
relaxes the translation-invariance constraint of CNNs and therefore represents
a model with a weaker set of inductive biases. Attention-based networks have
previously been shown to achieve higher accuracy than CNNs on vision tasks, and
we demonstrate, using new metrics for examining error consistency with more
granularity, that their errors are also more consistent with those of humans.
These results have implications both for building more human-like vision
models, as well as for understanding visual object recognition in humans.
- Abstract(参考訳): 現代のコンピュータビジョンの機械学習モデルは、特定の視覚認識タスク、特にimagenetのようなデータセットの精度で人間を超越している。
しかし、多くの点で高い精度が達成できる。
機械学習システムによって見出される特定の決定関数は、システムが露出するデータだけでなく、典型的には特徴付けが難しいモデルの帰納バイアスによって決定される。
本研究では,誤差のパターンに着目した評価指標として精度を超越したニューラルネットワークモデルの深い行動解析の最近の動向について述べる。
我々は,cnnの翻訳不変性制約を緩和し,帰納バイアスの弱いモデルを表現する標準畳み込みニューラルネットワーク(cnns)と最近発表された注意に基づくネットワークであるvision transformer(vit)を比較した。
注意に基づくネットワークは、これまで、視覚タスクにおけるCNNよりも高い精度を達成することが示されており、より粒度の細かいエラー整合性を調べるために、新しいメトリクスを用いて、エラーが人間のものとより整合していることを示す。
これらの結果は、人間の視覚モデルの構築だけでなく、人間の視覚的物体認識の理解にも影響を及ぼす。
関連論文リスト
- Biased Attention: Do Vision Transformers Amplify Gender Bias More than
Convolutional Neural Networks? [2.8391805742728553]
コンピュータビジョンで使用されるディープニューラルネットワークは、性別バイアスのような多くの社会的バイアスを示すことが示されている。
ビジョントランスフォーマー(ViT)は、コンピュータビジョンアプリケーションにおいて、画像分類などの多くのタスクにおいて、畳み込みニューラルネットワーク(CNN)を上回っている。
この研究により、ViTsはCNNよりも男女の偏見を増幅していることがわかった。
論文 参考訳(メタデータ) (2023-09-15T20:59:12Z) - Scale Alone Does not Improve Mechanistic Interpretability in Vision Models [16.020535763297175]
マシンビジョンは、データセットとモデルサイズの前例のないレベルまでニューラルネットワークをスケールすることで、目覚ましい進歩を見せている。
9種類のモデルからなる多種多様なスイートに対して、機械論的解釈可能性の1つの形態を定量化する。
調査対象の最先端モデルは,ほぼ10年前のGoogLeNetモデルよりも解釈が容易ではない。
論文 参考訳(メタデータ) (2023-07-11T17:56:22Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Connecting metrics for shape-texture knowledge in computer vision [1.7785095623975342]
深層ニューラルネットワークは、人間が画像の分類ミスを起こさないような、画像の多くの変化の影響を受けやすいままである。
この異なる振る舞いの一部は、視覚タスクで人間とディープニューラルネットワークが使用する機能の種類によって説明できるかもしれない。
論文 参考訳(メタデータ) (2023-01-25T14:37:42Z) - NCTV: Neural Clamping Toolkit and Visualization for Neural Network
Calibration [66.22668336495175]
ニューラルネットワークのキャリブレーションに対する考慮の欠如は、人間から信頼を得ることはないだろう。
我々はNeural Clamping Toolkitを紹介した。これは開発者が最先端のモデルに依存しないキャリブレーションモデルを採用するのを支援するために設計された最初のオープンソースフレームワークである。
論文 参考訳(メタデータ) (2022-11-29T15:03:05Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Deep Reinforcement Learning Models Predict Visual Responses in the
Brain: A Preliminary Result [1.0323063834827415]
強化学習を用いてニューラルネットワークモデルをトレーニングし、3Dコンピュータゲームをプレイします。
これらの強化学習モデルは、初期視覚領域において、神経応答予測精度のスコアを得る。
対照的に、教師付きニューラルネットワークモデルでは、より高い視覚領域において、より優れた神経応答予測が得られる。
論文 参考訳(メタデータ) (2021-06-18T13:10:06Z) - Leveraging Sparse Linear Layers for Debuggable Deep Networks [86.94586860037049]
学習した深い特徴表現に疎い線形モデルを適用することで、よりデバッグ可能なニューラルネットワークを実現する方法を示す。
その結果、スパースな説明は、スプリアス相関を特定し、誤分類を説明し、視覚および言語タスクにおけるモデルバイアスを診断するのに役立ちます。
論文 参考訳(メタデータ) (2021-05-11T08:15:25Z) - Malicious Network Traffic Detection via Deep Learning: An Information
Theoretic View [0.0]
本研究では,ホメオモルフィズムがマルウェアのトラフィックデータセットの学習表現に与える影響について検討する。
この結果から,学習された表現の詳細と,すべてのパラメータの多様体上で定義された特定の座標系は,関数近似とは全く異なることが示唆された。
論文 参考訳(メタデータ) (2020-09-16T15:37:44Z) - Vulnerability Under Adversarial Machine Learning: Bias or Variance? [77.30759061082085]
本研究では,機械学習が訓練された深層ニューラルネットワークのバイアスと分散に与える影響について検討する。
我々の分析は、ディープニューラルネットワークが対向的摂動下で性能が劣っている理由に光を当てている。
本稿では,計算処理の複雑さをよく知られた機械学習手法よりも低く抑えた,新しい逆機械学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-01T00:58:54Z) - Neural Additive Models: Interpretable Machine Learning with Neural Nets [77.66871378302774]
ディープニューラルネットワーク(DNN)は、さまざまなタスクにおいて優れたパフォーマンスを達成した強力なブラックボックス予測器である。
本稿では、DNNの表現性と一般化した加法モデルの固有知性を組み合わせたニューラル付加モデル(NAM)を提案する。
NAMは、ニューラルネットワークの線形結合を学び、それぞれが単一の入力機能に付随する。
論文 参考訳(メタデータ) (2020-04-29T01:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。