論文の概要: A Psychophysically Oriented Saliency Map Prediction Model
- arxiv url: http://arxiv.org/abs/2011.04076v13
- Date: Mon, 14 Jun 2021 20:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 08:37:00.394442
- Title: A Psychophysically Oriented Saliency Map Prediction Model
- Title(参考訳): 心理的指向型サリエンシマップ予測モデル
- Authors: Qiang Li
- Abstract要約: 本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。
提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
- 参考スコア(独自算出の注目度): 4.884688557957589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual attention is one of the most significant characteristics for selecting
and understanding the outside redundancy world. The human vision system cannot
process all information simultaneously due to the visual information
bottleneck. In order to reduce the redundant input of visual information, the
human visual system mainly focuses on dominant parts of scenes. This is
commonly known as visual saliency map prediction. This paper proposed a new
psychophysical saliency prediction architecture, WECSF, inspired by
multi-channel model of visual cortex functioning in humans. The model consists
of opponent color channels, wavelet transform, wavelet energy map, and contrast
sensitivity function for extracting low-level image features and providing a
maximum approximation to the human visual system. The proposed model is
evaluated using several datasets, including the MIT1003, MIT300, TORONTO,
SID4VAM, and UCF Sports datasets. We also quantitatively and qualitatively
compare the saliency prediction performance with that of other state-of-the-art
models. Our model achieved strongly stable and better performance with
different metrics on natural images, psychophysical synthetic images and
dynamic videos. Additionally, we found that Fourier and spectral-inspired
saliency prediction models outperformed other state-of-the-art non-neural
network and even deep neural network models on psychophysical synthetic images.
It can be explained and supported by the Fourier Vision Hypothesis. In the
meantime, we suggest that deep neural networks need specific architectures and
goals to be able to predict salient performance on psychophysical synthetic
images better and more reliably. Finally, the proposed model could be used as a
computational model of primate vision system and help us understand mechanism
of primate vision system.
- Abstract(参考訳): 視覚的注意は、外部冗長世界の選択と理解において最も重要な特徴の1つである。
人間の視覚システムは、視覚情報のボトルネックのため、全ての情報を同時に処理することはできない。
視覚情報の冗長な入力を減らすために、人間の視覚系は主にシーンの支配的な部分に焦点を当てている。
これはビジュアル・サリエンシ・マップの予測として知られている。
本稿では,人間の視覚野の多チャンネルモデルにインスパイアされた新しいサイコフィジカルサリエンシ予測アーキテクチャであるWECSFを提案する。
このモデルは、対向色チャネル、ウェーブレット変換、ウェーブレットエネルギーマップ、および低レベルの画像特徴を抽出し、人間の視覚システムへの最大近似を提供するコントラスト感度関数からなる。
提案モデルは、MIT1003, MIT300, TORONTO, SID4VAM, UCF Sportsデータセットなど、いくつかのデータセットを用いて評価される。
また, 精度予測性能を他の最先端モデルと比較し, 定量的, 質的に比較した。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
さらに,フーリエとスペクトルにインスパイアされた塩分予測モデルが,心理物理学的な合成画像において,最先端の非ニューラルネットワークや深層ニューラルネットワークモデルよりも優れていた。
これはフーリエ視覚仮説によって説明され、支持される。
一方、深層ニューラルネットワークは、精神物理学的な合成画像上での健全なパフォーマンスをより確実に予測するために、特定のアーキテクチャと目標が必要であることを示唆している。
最後に,提案モデルは霊長類視覚システムの計算モデルとして用いられ,霊長類視覚系のメカニズムを理解するのに役立つ。
関連論文リスト
- Unidirectional brain-computer interface: Artificial neural network
encoding natural images to fMRI response in the visual cortex [12.1427193917406]
本稿では,人間の脳を模倣する人工ニューラルネットワークVISIONを提案する。
VISIONは、人間の血行動態の反応をfMRIボクセル値として、最先端の性能を超える精度で45%の精度で予測することに成功した。
論文 参考訳(メタデータ) (2023-09-26T15:38:26Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Adapting Brain-Like Neural Networks for Modeling Cortical Visual
Prostheses [68.96380145211093]
皮質補綴は視覚野に移植された装置で、電気的にニューロンを刺激することで失った視力を回復しようとする。
現在、これらのデバイスが提供する視覚は限られており、刺激による視覚知覚を正確に予測することはオープンな課題である。
我々は、視覚システムの有望なモデルとして登場した「脳様」畳み込みニューラルネットワーク(CNN)を活用することで、この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-09-27T17:33:19Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Neural Implicit Representations for Physical Parameter Inference from a
Single Video [55.61164103824501]
本稿では,外見モデルのためのニューラル暗黙表現と,物理現象をモデル化するためのニューラル常微分方程式(ODE)を組み合わせることを提案する。
提案モデルでは,大規模なトレーニングデータセットを必要とする既存のアプローチとは対照的に,単一のビデオから物理的パラメータを識別することが可能になる。
ニューラル暗示表現を使用することで、高解像度ビデオの処理とフォトリアリスティック画像の合成が可能になる。
論文 参考訳(メタデータ) (2022-04-29T11:55:35Z) - Perception Visualization: Seeing Through the Eyes of a DNN [5.9557391359320375]
我々は、Grad-CAMのような現在の説明方法と本質的に異なる、新しい説明形式を開発する。
知覚可視化は、DNNが入力画像で知覚するものの視覚的表現を提供する。
ユーザスタディの結果から,認識の可視化が可能になった場合,人間がシステムの判断をよりよく理解し,予測できることが示される。
論文 参考訳(メタデータ) (2022-04-21T07:18:55Z) - SALYPATH: A Deep-Based Architecture for visual attention prediction [5.068678962285629]
視覚的注意は、画像圧縮、認識、キャプションなどの多くのコンピュータビジョンアプリケーションに有用である。
本稿では, 画像の走査パスを, サリエンシモデルの特徴を通して効率的に予測する, いわゆるSALYPATHを提案する。
その考え方は、深いベースモデルの能力を利用してスキャンパスを予測し、サリエンシを予測することである。
論文 参考訳(メタデータ) (2021-06-29T08:53:51Z) - Emergent Properties of Foveated Perceptual Systems [3.3504365823045044]
この研究は、周囲の視線とテクスチャのようなエンコーディングの中心において、より高い明度を持つ、織り成された人間の視覚システムにインスパイアされている。
本稿では,第1段のテクティット固定画像変換と第2段のテクティット学習可能な畳み込みニューラルネットワークを用いたモデルを提案する。
周辺テクスチャベースの計算によるファベーションにより、シーン情報の効率的で明瞭でロバストな表現形式が得られます。
論文 参考訳(メタデータ) (2020-06-14T19:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。