論文の概要: Transforming Neural Network Visual Representations to Predict Human
Judgments of Similarity
- arxiv url: http://arxiv.org/abs/2010.06512v2
- Date: Mon, 11 Jan 2021 20:40:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 23:11:40.123598
- Title: Transforming Neural Network Visual Representations to Predict Human
Judgments of Similarity
- Title(参考訳): 類似性判断のためのニューラルネットワーク視覚表現の変換
- Authors: Maria Attarian, Brett D. Roads, Michael C. Mozer
- Abstract要約: 機械の視覚表現を人間の表現とよりよく一致させる方法について検討する。
深層埋め込みの線形変換を適切に行うことで、人間の二進選択の予測を改善することができる。
- 参考スコア(独自算出の注目度): 12.5719993304358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep-learning vision models have shown intriguing similarities and
differences with respect to human vision. We investigate how to bring machine
visual representations into better alignment with human representations. Human
representations are often inferred from behavioral evidence such as the
selection of an image most similar to a query image. We find that with
appropriate linear transformations of deep embeddings, we can improve
prediction of human binary choice on a data set of bird images from 72% at
baseline to 89%. We hypothesized that deep embeddings have redundant, high
(4096) dimensional representations; however, reducing the rank of these
representations results in a loss of explanatory power. We hypothesized that
the dilation transformation of representations explored in past research is too
restrictive, and indeed we found that model explanatory power can be
significantly improved with a more expressive linear transform. Most surprising
and exciting, we found that, consistent with classic psychological literature,
human similarity judgments are asymmetric: the similarity of X to Y is not
necessarily equal to the similarity of Y to X, and allowing models to express
this asymmetry improves explanatory power.
- Abstract(参考訳): ディープラーニングのビジョンモデルは、人間の視覚に関して興味深い類似性と相違を示している。
機械の視覚表現を人間の表現とよく一致させる方法について検討する。
人間の表現はしばしば、問い合わせ画像に最もよく似た画像の選択のような行動証拠から推測される。
深層埋め込みの適切な線形変換によって、ベースラインの72%から89%までのバード画像のデータセット上での人間のバイナリ選択の予測を改善することができる。
深層埋め込みは冗長な(4096)次元表現を持つと仮定したが、これらの表現のランクを減少させることで説明力を失うことになる。
我々は過去の研究で探索された表現の拡張変換は制限的すぎると仮定し、実際にモデル説明力はより表現力のある線形変換によって著しく改善できることを示した。
x と y の類似性は必ずしも y と x の類似性に等しいとは限りませんし、この非対称性を表現できるモデルによって説明力が向上します。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Unsupervised Learning of Invariance Transformations [105.54048699217668]
近似グラフ自己同型を見つけるためのアルゴリズムフレームワークを開発する。
重み付きグラフにおける近似自己同型を見つけるために、このフレームワークをどのように利用できるかについて議論する。
論文 参考訳(メタデータ) (2023-07-24T17:03:28Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Predicting Human Similarity Judgments Using Large Language Models [13.33450619901885]
本稿では,テキスト記述に基づく類似性判断の効率的な予測手法を提案する。
要求される説明の数は刺激の数とともに直線的にしか増加せず、必要なデータ量が劇的に減少する。
本手法は, 自然画像の6つのデータセットを用いて検証し, 視覚情報に基づく従来の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-02-09T21:09:25Z) - Finding Biological Plausibility for Adversarially Robust Features via
Metameric Tasks [3.3504365823045044]
本研究では,非ロバスト表現よりも周辺計算が優れていることを示す。
本研究は,局所的なテクスチャ要約統計表現が人間を敵に強固に導く可能性を示唆するものである。
論文 参考訳(メタデータ) (2022-02-02T01:19:40Z) - On the use of Cortical Magnification and Saccades as Biological Proxies
for Data Augmentation [9.848635287149355]
ほとんどの自己監督的手法は、同じ画像の異なる変換の不変表現を学習するようシステムに促す。
本稿では,これらの強化のリバースエンジニアリングを,生物学的あるいは知覚学的に妥当なものにしようと試みる。
ランダムな収穫は皮質の倍率によって代用でき、画像のササードライクなサンプリングも表現学習に役立てることができる。
論文 参考訳(メタデータ) (2021-12-14T05:38:26Z) - Unravelling the Effect of Image Distortions for Biased Prediction of
Pre-trained Face Recognition Models [86.79402670904338]
画像歪みの存在下での4つの最先端深層顔認識モデルの性能評価を行った。
我々は、画像歪みが、異なるサブグループ間でのモデルの性能ギャップと関係していることを観察した。
論文 参考訳(メタデータ) (2021-08-14T16:49:05Z) - Visual stream connectivity predicts assessments of image quality [0.0]
我々は、知覚的類似性判断の正確かつ説明的な説明を提供する微分幾何学を示す、類似性の心理物理学の新たな形式化を導出する。
予測は、人間の行動報告に対する単純な回帰によってさらに改善され、それによってより精巧な仮説化された神経接続パターンを構築するのに使用される。
論文 参考訳(メタデータ) (2020-08-16T15:38:17Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - Extracting low-dimensional psychological representations from
convolutional neural networks [10.269997499911666]
類似性判定をまだ予測可能な低次元空間にニューラルネットワーク表現を還元する手法を提案する。
これらの低次元表現は、人間の類似性判断の根底にある要因についての洞察に富んだ説明を提供する。
論文 参考訳(メタデータ) (2020-05-29T01:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。