論文の概要: CNNs and Transformers Perceive Hybrid Images Similar to Humans
- arxiv url: http://arxiv.org/abs/2203.11678v1
- Date: Sat, 19 Mar 2022 21:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 15:00:02.681602
- Title: CNNs and Transformers Perceive Hybrid Images Similar to Humans
- Title(参考訳): CNNとトランスフォーマーは人間に似たハイブリッド画像を認識する
- Authors: Ali Borji
- Abstract要約: 深層学習視覚モデルの予測は、ハイブリッド画像の人間の知覚と定性的に一致していることを示す。
我々の結果は、畳み込みニューラルネットワーク(CNN)とトランスフォーマー(Transformer)が、視覚野の腹側の流れにおける情報のフィードフォワードスイープのモデル化に長けているという仮説を支持する新たな証拠を提供する。
- 参考スコア(独自算出の注目度): 47.64219291655723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid images is a technique to generate images with two interpretations that
change as a function of viewing distance. It has been utilized to study
multiscale processing of images by the human visual system. Using 63,000 hybrid
images across 10 fruit categories, here we show that predictions of deep
learning vision models qualitatively matches with the human perception of these
images. Our results provide yet another evidence in support of the hypothesis
that Convolutional Neural Networks (CNNs) and Transformers are good at modeling
the feedforward sweep of information in the ventral stream of visual cortex.
Code and data is available at https://github.com/aliborji/hybrid_images.git.
- Abstract(参考訳): ハイブリッド画像は、視線距離の関数として変化する2つの解釈を持つ画像を生成する技術である。
ヒトの視覚システムによる画像のマルチスケール処理の研究に利用されている。
ここでは,10の果実カテゴリにわたる63,000のハイブリッド画像を用いて,深層学習視覚モデルの予測が人間の知覚と質的に一致することを示す。
以上の結果は,畳み込みニューラルネットワーク(cnns)とトランスフォーマーが視覚野の心室系における情報のフィードフォワードスイープのモデル化に有効であるという仮説を裏付けるもう1つの証拠である。
コードとデータはhttps://github.com/aliborji/hybrid_images.gitで入手できる。
関連論文リスト
- Describing Images $\textit{Fast and Slow}$: Quantifying and Predicting
the Variation in Human Signals during Visuo-Linguistic Processes [4.518404103861656]
本研究では,ビジュオ言語信号の変動の性質について検討し,それらが相互に相関していることを確認した。
この結果から,画像の特性から変化が生じると仮定し,事前学習された視覚エンコーダによって符号化された画像表現が,そのような変化を捉えることができるかどうかを考察する。
以上の結果から, 事前学習モデルでは, 刺激が複雑になる要因や, 人間の出力の変動要因について, 偏見が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-02-02T12:11:16Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - CIFAKE: Image Classification and Explainable Identification of
AI-Generated Synthetic Images [7.868449549351487]
本稿では,コンピュータビジョンによるAI生成画像の認識能力を高めることを提案する。
写真が本物かAIによって生成されるかに関して、バイナリ分類問題として存在する2つのデータセット。
本研究では,畳み込みニューラルネットワーク(CNN)を用いて画像をリアルとフェイクの2つのカテゴリに分類する。
論文 参考訳(メタデータ) (2023-03-24T16:33:06Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Superpixel-based Domain-Knowledge Infusion in Computer Vision [0.7349727826230862]
スーパーピクセルは画像中の高次の知覚的ピクセル群であり、しばしば生のピクセルよりもはるかに多くの情報を運ぶ。
画像の異なるスーパーピクセル間の関係に固有の関係構造が存在する。
この関係情報は、猫画像中の2つの目を表すスーパーピクセル間の関係など、画像に関するある種のドメイン情報を伝達することができる。
論文 参考訳(メタデータ) (2021-05-20T01:25:42Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - A Psychophysically Oriented Saliency Map Prediction Model [4.884688557957589]
本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。
提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
論文 参考訳(メタデータ) (2020-11-08T20:58:05Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。