Fugu-MT 論文翻訳(概要): CNNs and Transformers Perceive Hybrid Images Similar to Humans

論文の概要: CNNs and Transformers Perceive Hybrid Images Similar to Humans

arxiv url: http://arxiv.org/abs/2203.11678v1
Date: Sat, 19 Mar 2022 21:37:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-26 15:00:02.681602
Title: CNNs and Transformers Perceive Hybrid Images Similar to Humans
Title（参考訳）: CNNとトランスフォーマーは人間に似たハイブリッド画像を認識する
Authors: Ali Borji
Abstract要約: 深層学習視覚モデルの予測は、ハイブリッド画像の人間の知覚と定性的に一致していることを示す。我々の結果は、畳み込みニューラルネットワーク(CNN)とトランスフォーマー(Transformer)が、視覚野の腹側の流れにおける情報のフィードフォワードスイープのモデル化に長けているという仮説を支持する新たな証拠を提供する。
参考スコア（独自算出の注目度）: 47.64219291655723
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hybrid images is a technique to generate images with two interpretations that change as a function of viewing distance. It has been utilized to study multiscale processing of images by the human visual system. Using 63,000 hybrid images across 10 fruit categories, here we show that predictions of deep learning vision models qualitatively matches with the human perception of these images. Our results provide yet another evidence in support of the hypothesis that Convolutional Neural Networks (CNNs) and Transformers are good at modeling the feedforward sweep of information in the ventral stream of visual cortex. Code and data is available at https://github.com/aliborji/hybrid_images.git.
Abstract（参考訳）: ハイブリッド画像は、視線距離の関数として変化する2つの解釈を持つ画像を生成する技術である。ヒトの視覚システムによる画像のマルチスケール処理の研究に利用されている。ここでは,10の果実カテゴリにわたる63,000のハイブリッド画像を用いて,深層学習視覚モデルの予測が人間の知覚と質的に一致することを示す。以上の結果は,畳み込みニューラルネットワーク(cnns)とトランスフォーマーが視覚野の心室系における情報のフィードフォワードスイープのモデル化に有効であるという仮説を裏付けるもう1つの証拠である。コードとデータはhttps://github.com/aliborji/hybrid_images.gitで入手できる。

関連論文リスト

Modeling Human Gaze Behavior with Diffusion Models for Unified Scanpath Prediction [66.71402249062777]
ScanDiffは、拡散モデルと視覚変換器を組み合わせることで、多種多様な現実的なスキャンパスを生成する新しいアーキテクチャである。本手法は,拡散モデルの性質を活用してスキャンパス変動を明示的にモデル化し,多種多様な視線軌道を生成する。ベンチマークデータセットの実験によると、ScanDiffは、フリービューとタスク駆動のシナリオの両方で最先端のメソッドを上回っている。
論文参考訳（メタデータ） (2025-07-30T18:36:09Z)
A Hybrid Fully Convolutional CNN-Transformer Model for Inherently Interpretable Medical Image Classification [5.904095466127043]
医用画像分類のための完全畳み込み型CNN-Transformerアーキテクチャを提案する。我々のモデルはブラックボックスと解釈可能なモデルと比較して最先端の予測性能を実現する。
論文参考訳（メタデータ） (2025-04-11T12:15:22Z)
Guided Diffusion for the Extension of Machine Vision to Human Visual Perception [0.0]
誘導拡散を用いた人間の視覚知覚にマシンビジョンを拡張させる手法を提案する。誘導拡散は、マシンビジョンと人間の知覚の間のブリッジとして機能し、追加のオーバーヘッドなしにそれらの間の遷移を可能にする。
論文参考訳（メタデータ） (2025-03-23T03:04:26Z)
Sensitive Image Classification by Vision Transformers [1.9598097298813262]
ビジョントランスモデルは自己認識機構を利用して、文脈的局所要素間のグローバルな相互作用をキャプチャする。本研究では,様々な視覚変換器モデルと従来のトレーニング済みResNetモデルの比較分析を行った。その結果、ビジョントランスフォーマーネットワークは、事前訓練されたベンチマークモデルを超え、優れた分類と検出能力を示した。
論文参考訳（メタデータ） (2024-12-21T02:34:24Z)
Inverting Transformer-based Vision Models [0.8124699127636158]
本研究では,検出変換器と視覚変換器の中間層から入力画像を再構成するために,逆モデルのモジュラー手法を適用する。我々の分析は、これらの特性がモデル内でどのように現れるかを示し、トランスフォーマーベースの視覚モデルに対する深い理解に寄与する。
論文参考訳（メタデータ） (2024-12-09T14:43:06Z)
Describing Images $\textit{Fast and Slow}$: Quantifying and Predicting the Variation in Human Signals during Visuo-Linguistic Processes [4.518404103861656]
本研究では,ビジュオ言語信号の変動の性質について検討し,それらが相互に相関していることを確認した。この結果から,画像の特性から変化が生じると仮定し,事前学習された視覚エンコーダによって符号化された画像表現が,そのような変化を捉えることができるかどうかを考察する。以上の結果から, 事前学習モデルでは, 刺激が複雑になる要因や, 人間の出力の変動要因について, 偏見が欠如していることが示唆された。
論文参考訳（メタデータ） (2024-02-02T12:11:16Z)
Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文参考訳（メタデータ） (2023-08-03T05:27:12Z)
CIFAKE: Image Classification and Explainable Identification of AI-Generated Synthetic Images [7.868449549351487]
本稿では,コンピュータビジョンによるAI生成画像の認識能力を高めることを提案する。写真が本物かAIによって生成されるかに関して、バイナリ分類問題として存在する2つのデータセット。本研究では,畳み込みニューラルネットワーク(CNN)を用いて画像をリアルとフェイクの2つのカテゴリに分類する。
論文参考訳（メタデータ） (2023-03-24T16:33:06Z)
A domain adaptive deep learning solution for scanpath prediction of paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文参考訳（メタデータ） (2022-09-22T22:27:08Z)
Prune and distill: similar reformatting of image information along rat visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文参考訳（メタデータ） (2022-05-27T08:06:40Z)
Superpixel-based Domain-Knowledge Infusion in Computer Vision [0.7349727826230862]
スーパーピクセルは画像中の高次の知覚的ピクセル群であり、しばしば生のピクセルよりもはるかに多くの情報を運ぶ。画像の異なるスーパーピクセル間の関係に固有の関係構造が存在する。この関係情報は、猫画像中の2つの目を表すスーパーピクセル間の関係など、画像に関するある種のドメイン情報を伝達することができる。
論文参考訳（メタデータ） (2021-05-20T01:25:42Z)
Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。 StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文参考訳（メタデータ） (2021-04-29T17:58:35Z)
A Psychophysically Oriented Saliency Map Prediction Model [4.884688557957589]
本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
論文参考訳（メタデータ） (2020-11-08T20:58:05Z)
Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文参考訳（メタデータ） (2020-02-10T20:15:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。