論文の概要: A Psychophysically Oriented Saliency Map Prediction Model
- arxiv url: http://arxiv.org/abs/2011.04076v13
- Date: Mon, 14 Jun 2021 20:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 08:37:00.394442
- Title: A Psychophysically Oriented Saliency Map Prediction Model
- Title(参考訳): 心理的指向型サリエンシマップ予測モデル
- Authors: Qiang Li
- Abstract要約: 本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。
提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
- 参考スコア(独自算出の注目度): 4.884688557957589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual attention is one of the most significant characteristics for selecting
and understanding the outside redundancy world. The human vision system cannot
process all information simultaneously due to the visual information
bottleneck. In order to reduce the redundant input of visual information, the
human visual system mainly focuses on dominant parts of scenes. This is
commonly known as visual saliency map prediction. This paper proposed a new
psychophysical saliency prediction architecture, WECSF, inspired by
multi-channel model of visual cortex functioning in humans. The model consists
of opponent color channels, wavelet transform, wavelet energy map, and contrast
sensitivity function for extracting low-level image features and providing a
maximum approximation to the human visual system. The proposed model is
evaluated using several datasets, including the MIT1003, MIT300, TORONTO,
SID4VAM, and UCF Sports datasets. We also quantitatively and qualitatively
compare the saliency prediction performance with that of other state-of-the-art
models. Our model achieved strongly stable and better performance with
different metrics on natural images, psychophysical synthetic images and
dynamic videos. Additionally, we found that Fourier and spectral-inspired
saliency prediction models outperformed other state-of-the-art non-neural
network and even deep neural network models on psychophysical synthetic images.
It can be explained and supported by the Fourier Vision Hypothesis. In the
meantime, we suggest that deep neural networks need specific architectures and
goals to be able to predict salient performance on psychophysical synthetic
images better and more reliably. Finally, the proposed model could be used as a
computational model of primate vision system and help us understand mechanism
of primate vision system.
- Abstract(参考訳): 視覚的注意は、外部冗長世界の選択と理解において最も重要な特徴の1つである。
人間の視覚システムは、視覚情報のボトルネックのため、全ての情報を同時に処理することはできない。
視覚情報の冗長な入力を減らすために、人間の視覚系は主にシーンの支配的な部分に焦点を当てている。
これはビジュアル・サリエンシ・マップの予測として知られている。
本稿では,人間の視覚野の多チャンネルモデルにインスパイアされた新しいサイコフィジカルサリエンシ予測アーキテクチャであるWECSFを提案する。
このモデルは、対向色チャネル、ウェーブレット変換、ウェーブレットエネルギーマップ、および低レベルの画像特徴を抽出し、人間の視覚システムへの最大近似を提供するコントラスト感度関数からなる。
提案モデルは、MIT1003, MIT300, TORONTO, SID4VAM, UCF Sportsデータセットなど、いくつかのデータセットを用いて評価される。
また, 精度予測性能を他の最先端モデルと比較し, 定量的, 質的に比較した。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
さらに,フーリエとスペクトルにインスパイアされた塩分予測モデルが,心理物理学的な合成画像において,最先端の非ニューラルネットワークや深層ニューラルネットワークモデルよりも優れていた。
これはフーリエ視覚仮説によって説明され、支持される。
一方、深層ニューラルネットワークは、精神物理学的な合成画像上での健全なパフォーマンスをより確実に予測するために、特定のアーキテクチャと目標が必要であることを示唆している。
最後に,提案モデルは霊長類視覚システムの計算モデルとして用いられ,霊長類視覚系のメカニズムを理解するのに役立つ。
関連論文リスト
- Modeling the Human Visual System: Comparative Insights from Response-Optimized and Task-Optimized Vision Models, Language Models, and different Readout Mechanisms [1.515687944002438]
視覚入力を用いた応答最適化モデルでは,早期・中期の視覚領域において,より優れた予測精度が得られることを示す。
言語的記述では捉えられない入力の知覚的特徴に敏感な視覚野の3つの異なる領域を同定する。
本稿では,意味的内容に基づいて受容場や特徴マップを変調し,既存のSOTAよりも3~23%精度が向上する手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T21:11:13Z) - pAE: An Efficient Autoencoder Architecture for Modeling the Lateral Geniculate Nucleus by Integrating Feedforward and Feedback Streams in Human Visual System [0.716879432974126]
本稿では,人間の視覚情報処理を近似した深部畳み込みモデルを提案する。
本研究の目的は、訓練された浅部畳み込みモデルを用いて、外側原核(LGN)領域の機能を近似することである。
pAEモデルは最終99.26%の予測性能を達成し、時間モードでの人間の結果よりも約28%向上したことを示す。
論文 参考訳(メタデータ) (2024-09-20T16:33:01Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Unidirectional brain-computer interface: Artificial neural network
encoding natural images to fMRI response in the visual cortex [12.1427193917406]
本稿では,人間の脳を模倣する人工ニューラルネットワークVISIONを提案する。
VISIONは、人間の血行動態の反応をfMRIボクセル値として、最先端の性能を超える精度で45%の精度で予測することに成功した。
論文 参考訳(メタデータ) (2023-09-26T15:38:26Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Adapting Brain-Like Neural Networks for Modeling Cortical Visual
Prostheses [68.96380145211093]
皮質補綴は視覚野に移植された装置で、電気的にニューロンを刺激することで失った視力を回復しようとする。
現在、これらのデバイスが提供する視覚は限られており、刺激による視覚知覚を正確に予測することはオープンな課題である。
我々は、視覚システムの有望なモデルとして登場した「脳様」畳み込みニューラルネットワーク(CNN)を活用することで、この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-09-27T17:33:19Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - Neural Implicit Representations for Physical Parameter Inference from a Single Video [49.766574469284485]
本稿では,外見モデルのためのニューラル暗黙表現と,物理現象をモデル化するためのニューラル常微分方程式(ODE)を組み合わせることを提案する。
提案モデルでは,大規模なトレーニングデータセットを必要とする既存のアプローチとは対照的に,単一のビデオから物理的パラメータを識別することが可能になる。
ニューラル暗示表現を使用することで、高解像度ビデオの処理とフォトリアリスティック画像の合成が可能になる。
論文 参考訳(メタデータ) (2022-04-29T11:55:35Z) - Emergent Properties of Foveated Perceptual Systems [3.3504365823045044]
この研究は、周囲の視線とテクスチャのようなエンコーディングの中心において、より高い明度を持つ、織り成された人間の視覚システムにインスパイアされている。
本稿では,第1段のテクティット固定画像変換と第2段のテクティット学習可能な畳み込みニューラルネットワークを用いたモデルを提案する。
周辺テクスチャベースの計算によるファベーションにより、シーン情報の効率的で明瞭でロバストな表現形式が得られます。
論文 参考訳(メタデータ) (2020-06-14T19:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。