論文の概要: Universal dimensions of visual representation
- arxiv url: http://arxiv.org/abs/2408.12804v1
- Date: Fri, 23 Aug 2024 02:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 16:09:18.603928
- Title: Universal dimensions of visual representation
- Title(参考訳): 視覚表現の普遍次元
- Authors: Zirui Chen, Michael F. Bonner,
- Abstract要約: 我々は、様々な構成の視覚ニューラルネットワークから数十万の表現次元の普遍性を特徴づけた。
様々なアーキテクチャを持つネットワークは、潜在次元の共有集合を用いて自然画像を表現することを学習する。
ニューラルネットワークにおける最も脳に整合した表現は、普遍的で、ネットワークの特定の特性に依存しない表現である。
- 参考スコア(独自算出の注目度): 0.8824340350342511
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Do neural network models of vision learn brain-aligned representations because they share architectural constraints and task objectives with biological vision or because they learn universal features of natural image processing? We characterized the universality of hundreds of thousands of representational dimensions from visual neural networks with varied construction. We found that networks with varied architectures and task objectives learn to represent natural images using a shared set of latent dimensions, despite appearing highly distinct at a surface level. Next, by comparing these networks with human brain representations measured with fMRI, we found that the most brain-aligned representations in neural networks are those that are universal and independent of a network's specific characteristics. Remarkably, each network can be reduced to fewer than ten of its most universal dimensions with little impact on its representational similarity to the human brain. These results suggest that the underlying similarities between artificial and biological vision are primarily governed by a core set of universal image representations that are convergently learned by diverse systems.
- Abstract(参考訳): 視覚のニューラルネットワークモデルは、アーキテクチャ上の制約とタスク目標を生物学的ビジョンと共有しているため、あるいは、自然言語処理の普遍的な特徴を学習しているため、ブレインアライン表現を学ぶのか?
我々は、様々な構成の視覚ニューラルネットワークから数十万の表現次元の普遍性を特徴づけた。
様々なアーキテクチャやタスクの目的を持つネットワークは,表面レベルでは高度に異なるように見えるが,複数の潜在次元の共有集合を用いて自然なイメージを表現できることが判明した。
次に、これらのネットワークをfMRIで測定した人間の脳の表現と比較することにより、ニューラルネットワークにおける最も脳に整合した表現は、ネットワークの特定の特徴から独立しているものであることが判明した。
注目すべきは、各ネットワークは、人間の脳との表現的類似性にほとんど影響を与えずに、最も普遍的な次元の10未満に縮小することができることである。
これらの結果は、人工的な視覚と生物学的視覚の基本的な類似性は、主に多様なシステムによって収束的に学習される普遍的なイメージ表現のコアセットによって制御されていることを示唆している。
関連論文リスト
- On the universality of neural encodings in CNNs [5.064404027153094]
学習された固有ベクトルは、VGG型ネットワークの様々な層に対して、異なる自然画像データセットにまたがって普遍的であることを示す。
彼らは、より基本的なレベルで、トランスファーラーニングの成功を説明する。
論文 参考訳(メタデータ) (2024-09-28T21:30:25Z) - Image segmentation with traveling waves in an exactly solvable recurrent
neural network [71.74150501418039]
繰り返しニューラルネットワークは、シーンの構造特性に応じて、画像をグループに効果的に分割できることを示す。
本稿では,このネットワークにおけるオブジェクトセグメンテーションのメカニズムを正確に記述する。
次に、グレースケール画像中の単純な幾何学的対象から自然画像まで、入力をまたいで一般化するオブジェクトセグメンテーションの簡単なアルゴリズムを実証する。
論文 参考訳(メタデータ) (2023-11-28T16:46:44Z) - Connecting metrics for shape-texture knowledge in computer vision [1.7785095623975342]
深層ニューラルネットワークは、人間が画像の分類ミスを起こさないような、画像の多くの変化の影響を受けやすいままである。
この異なる振る舞いの一部は、視覚タスクで人間とディープニューラルネットワークが使用する機能の種類によって説明できるかもしれない。
論文 参考訳(メタデータ) (2023-01-25T14:37:42Z) - Formal Conceptual Views in Neural Networks [0.0]
本稿では,ニューラルネットワークの概念的視点,特に多値・記号的視点の2つの概念を紹介する。
我々は、ImageNetとFruit-360データセットの異なる実験を通して、新しいビューの概念的表現性をテストする。
本研究では,ニューロンからの人間の理解可能なルールの帰納的学習に概念的視点が適用可能であることを実証する。
論文 参考訳(メタデータ) (2022-09-27T16:38:24Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Functional2Structural: Cross-Modality Brain Networks Representation
Learning [55.24969686433101]
脳ネットワーク上のグラフマイニングは、臨床表現型および神経変性疾患のための新しいバイオマーカーの発見を促進する可能性がある。
本稿では,Deep Signed Brain Networks (DSBN) と呼ばれる新しいグラフ学習フレームワークを提案する。
臨床表現型および神経変性疾患予測の枠組みを,2つの独立した公開データセットを用いて検証した。
論文 参考訳(メタデータ) (2022-05-06T03:45:36Z) - Grounding Psychological Shape Space in Convolutional Neural Networks [0.0]
我々は畳み込みニューラルネットワークを用いて、知覚入力間の一般化可能なマッピングと、最近提案された形状領域の心理学的類似性空間を学習する。
この結果から,分類に基づくマルチタスク学習シナリオが最も優れた結果が得られるが,その性能は類似性空間の次元に比較的敏感であることが示唆された。
論文 参考訳(メタデータ) (2021-11-16T12:21:07Z) - Aesthetics and neural network image representations [0.0]
我々は,BigGANアーキテクチャの生成ニューラルネットワークによって符号化された画像の空間を解析する。
ニューラルネットワークパラメータをフォトリアリスティックな点から遠ざかる一般的な乗法的摂動は、しばしば対応するオブジェクトの「芸術的回帰」として現れる画像を生成する。
論文 参考訳(メタデータ) (2021-09-16T16:50:22Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。