論文の概要: Human alignment of neural network representations
- arxiv url: http://arxiv.org/abs/2211.01201v1
- Date: Wed, 2 Nov 2022 15:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 12:10:24.825715
- Title: Human alignment of neural network representations
- Title(参考訳): ニューラルネットワーク表現の人間のアライメント
- Authors: Lukas Muttenthaler, Jonas Dippel, Lorenz Linhardt, Robert A.
Vandermeulen, Simon Kornblith
- Abstract要約: ニューラルネットワークが学習した表現と人間の概念表現のアライメントに影響を与える要因について検討する。
モデルスケールとアーキテクチャは基本的に人間の行動応答に影響を与えない。
より大きく多様なデータセットでトレーニングされたモデルは、ImageNetだけでトレーニングされたモデルよりも人間との整合性が向上するが、我々の結果は、スケーリングだけでは、人間が使用するモデルと一致する概念的な表現でニューラルネットワークをトレーニングするのに十分ではないことを示唆している。
- 参考スコア(独自算出の注目度): 22.671101285994013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's computer vision models achieve human or near-human level performance
across a wide variety of vision tasks. However, their architectures, data, and
learning algorithms differ in numerous ways from those that give rise to human
vision. In this paper, we investigate the factors that affect alignment between
the representations learned by neural networks and human concept
representations. Human representations are inferred from behavioral responses
in an odd-one-out triplet task, where humans were presented with three images
and had to select the odd-one-out. We find that model scale and architecture
have essentially no effect on alignment with human behavioral responses,
whereas the training dataset and objective function have a much larger impact.
Using a sparse Bayesian model of human conceptual representations, we partition
triplets by the concept that distinguishes the two similar images from the
odd-one-out, finding that some concepts such as food and animals are
well-represented in neural network representations whereas others such as royal
or sports-related objects are not. Overall, although models trained on larger,
more diverse datasets achieve better alignment with humans than models trained
on ImageNet alone, our results indicate that scaling alone is unlikely to be
sufficient to train neural networks with conceptual representations that match
those used by humans.
- Abstract(参考訳): 今日のコンピュータビジョンモデルは、多種多様なビジョンタスクで人間またはほぼ人間レベルのパフォーマンスを達成する。
しかし、彼らのアーキテクチャ、データ、学習アルゴリズムは、人間のビジョンを生み出すものとは様々な点で異なる。
本稿では,ニューラルネットワークが学習した表現と人間の概念表現のアライメントに影響を与える要因について検討する。
人間の表現は、オッズワンアウトトリプルトタスクの行動応答から推測され、人間は3つのイメージを提示され、オッズワンアウトを選択する必要があった。
モデルスケールとアーキテクチャが人間の行動応答に本質的に影響しないのに対し、トレーニングデータセットと客観的機能には大きな影響があります。
人間の概念表現のスパースベイズモデルを用いて、2つの類似したイメージを奇数1アウトと区別する概念で三重項を分割し、食物や動物などの概念がニューラルネットワーク表現でよく表現されているのに対して、ロイヤルやスポーツ関連の物体はそうではないことを発見した。
全体として、より大きく多様なデータセットでトレーニングされたモデルは、ImageNetだけでトレーニングされたモデルよりも人間との整合性が向上するが、我々の結果は、スケーリング単独では、人間が使用するモデルと一致する概念的な表現でニューラルネットワークをトレーニングするのに十分ではないことを示唆している。
関連論文リスト
- Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [53.7168869241458]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Connecting metrics for shape-texture knowledge in computer vision [1.7785095623975342]
深層ニューラルネットワークは、人間が画像の分類ミスを起こさないような、画像の多くの変化の影響を受けやすいままである。
この異なる振る舞いの一部は、視覚タスクで人間とディープニューラルネットワークが使用する機能の種類によって説明できるかもしれない。
論文 参考訳(メタデータ) (2023-01-25T14:37:42Z) - Harmonizing the object recognition strategies of deep neural networks
with humans [10.495114898741205]
最先端のディープニューラルネットワーク(DNN)は、精度が向上するにつれて、人間との整合性が低下していることを示す。
我々の研究は、現在DNNの設計を導くスケーリング法則が、人間の視覚を悪化させるモデルを生み出した最初の例である。
論文 参考訳(メタデータ) (2022-11-08T20:03:49Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Guiding Visual Attention in Deep Convolutional Neural Networks Based on
Human Eye Movements [0.0]
ディープ畳み込みニューラルネットワーク(DCNN)は、当初は生物学的ビジョンの原理にインスパイアされていた。
近年のディープラーニングの進歩は、この類似性を減らしているようだ。
有用なモデルを得るための純粋にデータ駆動型アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-21T17:59:23Z) - The world seems different in a social context: a neural network analysis
of human experimental data [57.729312306803955]
本研究では,先行・知覚的信号の精度を変化させることで,個人・社会的タスク設定の両方で人間の行動データを再現可能であることを示す。
トレーニングされたネットワークの神経活性化トレースの分析は、情報が個人や社会的条件のネットワークにおいて、根本的に異なる方法でコード化されていることを示す。
論文 参考訳(メタデータ) (2022-03-03T17:19:12Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Overcoming the Domain Gap in Neural Action Representations [60.47807856873544]
3Dポーズデータは、手動で介入することなく、マルチビュービデオシーケンスから確実に抽出できる。
本稿では,ニューラルアクション表現の符号化を,ニューラルアクションと行動拡張のセットと共に導くために使用することを提案する。
ドメインギャップを減らすために、トレーニングの間、同様の行動をしているように見える動物間で神経と行動のデータを取り替える。
論文 参考訳(メタデータ) (2021-12-02T12:45:46Z) - Partial success in closing the gap between human and machine vision [30.78663978510427]
数年前、最初のCNNがImageNetで人間のパフォーマンスを上回った。
人間のビジョンとマシンビジョンのギャップを埋める作業は進んでいますか?
我々は、広範囲なアウト・オブ・ディストリビューション(OOD)データセット上で、人間のオブザーバをテストした。
論文 参考訳(メタデータ) (2021-06-14T13:23:35Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Seeing eye-to-eye? A comparison of object recognition performance in
humans and deep convolutional neural networks under image manipulation [0.0]
本研究では,ヒトとフィードフォワードニューラルネットワークの視覚コア物体認識性能の行動比較を目的とした。
精度分析の結果、人間はDCNNを全ての条件で上回るだけでなく、形状や色の変化に対する強い堅牢性も示している。
論文 参考訳(メタデータ) (2020-07-13T10:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。