論文の概要: Connecting metrics for shape-texture knowledge in computer vision
- arxiv url: http://arxiv.org/abs/2301.10608v1
- Date: Wed, 25 Jan 2023 14:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 15:00:50.665510
- Title: Connecting metrics for shape-texture knowledge in computer vision
- Title(参考訳): コンピュータビジョンにおける形状・テクスチャ知識の接続
- Authors: Tiago Oliveira, Tiago Marques, Arlindo L. Oliveira
- Abstract要約: 深層ニューラルネットワークは、人間が画像の分類ミスを起こさないような、画像の多くの変化の影響を受けやすいままである。
この異なる振る舞いの一部は、視覚タスクで人間とディープニューラルネットワークが使用する機能の種類によって説明できるかもしれない。
- 参考スコア(独自算出の注目度): 1.7785095623975342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern artificial neural networks, including convolutional neural networks
and vision transformers, have mastered several computer vision tasks, including
object recognition. However, there are many significant differences between the
behavior and robustness of these systems and of the human visual system. Deep
neural networks remain brittle and susceptible to many changes in the image
that do not cause humans to misclassify images. Part of this different behavior
may be explained by the type of features humans and deep neural networks use in
vision tasks. Humans tend to classify objects according to their shape while
deep neural networks seem to rely mostly on texture. Exploring this question is
relevant, since it may lead to better performing neural network architectures
and to a better understanding of the workings of the vision system of primates.
In this work, we advance the state of the art in our understanding of this
phenomenon, by extending previous analyses to a much larger set of deep neural
network architectures. We found that the performance of models in image
classification tasks is highly correlated with their shape bias measured at the
output and penultimate layer. Furthermore, our results showed that the number
of neurons that represent shape and texture are strongly anti-correlated, thus
providing evidence that there is competition between these two types of
features. Finally, we observed that while in general there is a correlation
between performance and shape bias, there are significant variations between
architecture families.
- Abstract(参考訳): 畳み込みニューラルネットワークや視覚トランスフォーマーを含む現代の人工ニューラルネットワークは、オブジェクト認識を含むいくつかのコンピュータビジョンタスクを習得している。
しかしながら、これらのシステムと人間の視覚系の挙動と堅牢性には、多くの有意な違いがある。
深層ニューラルネットワークは、人間が画像の分類ミスを起こさないような多くの画像の変化の影響を受けやすいままである。
この異なる行動の一部は、人間とディープニューラルネットワークが視覚タスクで使用する機能の種類によって説明できる。
人間は形に応じて物体を分類する傾向があり、深いニューラルネットワークは主にテクスチャに依存しているように見える。
この疑問を探求することは、ニューラルネットワークアーキテクチャのパフォーマンスを向上し、霊長類の視覚システムの動作をよりよく理解するために重要である。
本研究では,この現象の理解において,従来の分析結果をより広範な深層ニューラルネットワークアーキテクチャに拡張することにより,その技術の現状を推し進める。
その結果,画像分類作業におけるモデルの性能は,出力層と鉛直層で測定された形状バイアスと大きく相関していることがわかった。
さらに, 形状とテクスチャを表すニューロンの数が強い抗相関性を示し, これら2つの特徴の競合が存在することを示唆した。
最後に、一般的にはパフォーマンスと形状バイアスの間に相関があるが、アーキテクチャファミリの間には大きな差異があることを観察した。
関連論文リスト
- Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Evaluating alignment between humans and neural network representations in image-based learning tasks [5.657101730705275]
トレーニング済みの860ドルのニューラルネットワークモデルの表現が、人間の学習軌跡にどのようにマッピングされているかテストしました。
トレーニングデータセットのサイズは人間の選択に沿った中核的な決定要因であるのに対し、マルチモーダルデータ(テキストと画像)による対照的なトレーニングは、人間の一般化を予測するために現在公開されているモデルの一般的な特徴であることがわかった。
結論として、事前訓練されたニューラルネットワークは、タスク間で伝達可能な認知の基本的な側面を捉えているように見えるため、認知モデルのための表現を抽出するのに役立つ。
論文 参考訳(メタデータ) (2023-06-15T08:18:29Z) - Degraded Polygons Raise Fundamental Questions of Neural Network Perception [5.423100066629618]
我々は、30年以上前に人間の視覚の認識・コンポーネント理論で導入された、劣化中の画像の復元作業を再考する。
周辺劣化した正多角形の大規模データセットを高速に生成するための自動形状復元テストを実装した。
この単純なタスクにおけるニューラルネットワークの振舞いは、人間の振舞いと矛盾する。
論文 参考訳(メタデータ) (2023-06-08T06:02:39Z) - Human alignment of neural network representations [22.671101285994013]
ニューラルネットワークで学習した表現と行動応答から推定される人間の心的表現のアライメントに影響を与える要因について検討する。
モデルスケールとアーキテクチャは基本的に人間の行動応答に影響を与えないことがわかった。
食物や動物などの人間の概念はニューラルネットワークによってよく表現されているのに対し、ロイヤルやスポーツ関連の物体はそうではない。
論文 参考訳(メタデータ) (2022-11-02T15:23:16Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Are Convolutional Neural Networks or Transformers more like human
vision? [9.83454308668432]
視覚タスクにおけるCNNよりも注意に基づくネットワークの方が精度が高いことを示す。
これらの結果は、人間の視覚モデルの構築だけでなく、人間の視覚的物体認識の理解にも影響を及ぼす。
論文 参考訳(メタデータ) (2021-05-15T10:33:35Z) - Learning Contact Dynamics using Physically Structured Neural Networks [81.73947303886753]
ディープニューラルネットワークと微分方程式の接続を用いて、オブジェクト間の接触ダイナミクスを表現するディープネットワークアーキテクチャのファミリを設計する。
これらのネットワークは,ノイズ観測から不連続な接触事象をデータ効率良く学習できることを示す。
以上の結果から,タッチフィードバックの理想化形態は,この学習課題を扱いやすくするための重要な要素であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T17:33:51Z) - Graph Structure of Neural Networks [104.33754950606298]
ニューラルネットワークのグラフ構造が予測性能にどのように影響するかを示す。
リレーショナルグラフの"スイートスポット"は、予測性能を大幅に改善したニューラルネットワークにつながる。
トップパフォーマンスニューラルネットワークは、実際の生物学的ニューラルネットワークと驚くほどよく似たグラフ構造を持つ。
論文 参考訳(メタデータ) (2020-07-13T17:59:31Z) - Seeing eye-to-eye? A comparison of object recognition performance in
humans and deep convolutional neural networks under image manipulation [0.0]
本研究では,ヒトとフィードフォワードニューラルネットワークの視覚コア物体認識性能の行動比較を目的とした。
精度分析の結果、人間はDCNNを全ての条件で上回るだけでなく、形状や色の変化に対する強い堅牢性も示している。
論文 参考訳(メタデータ) (2020-07-13T10:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。