Fugu-MT 論文翻訳(概要): A Psychophysically Oriented Saliency Map Prediction Model

論文の概要: A Psychophysically Oriented Saliency Map Prediction Model

arxiv url: http://arxiv.org/abs/2011.04076v13
Date: Mon, 14 Jun 2021 20:45:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-28 08:37:00.394442
Title: A Psychophysically Oriented Saliency Map Prediction Model
Title（参考訳）: 心理的指向型サリエンシマップ予測モデル
Authors: Qiang Li
Abstract要約: 本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
参考スコア（独自算出の注目度）: 4.884688557957589
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual attention is one of the most significant characteristics for selecting and understanding the outside redundancy world. The human vision system cannot process all information simultaneously due to the visual information bottleneck. In order to reduce the redundant input of visual information, the human visual system mainly focuses on dominant parts of scenes. This is commonly known as visual saliency map prediction. This paper proposed a new psychophysical saliency prediction architecture, WECSF, inspired by multi-channel model of visual cortex functioning in humans. The model consists of opponent color channels, wavelet transform, wavelet energy map, and contrast sensitivity function for extracting low-level image features and providing a maximum approximation to the human visual system. The proposed model is evaluated using several datasets, including the MIT1003, MIT300, TORONTO, SID4VAM, and UCF Sports datasets. We also quantitatively and qualitatively compare the saliency prediction performance with that of other state-of-the-art models. Our model achieved strongly stable and better performance with different metrics on natural images, psychophysical synthetic images and dynamic videos. Additionally, we found that Fourier and spectral-inspired saliency prediction models outperformed other state-of-the-art non-neural network and even deep neural network models on psychophysical synthetic images. It can be explained and supported by the Fourier Vision Hypothesis. In the meantime, we suggest that deep neural networks need specific architectures and goals to be able to predict salient performance on psychophysical synthetic images better and more reliably. Finally, the proposed model could be used as a computational model of primate vision system and help us understand mechanism of primate vision system.
Abstract（参考訳）: 視覚的注意は、外部冗長世界の選択と理解において最も重要な特徴の1つである。人間の視覚システムは、視覚情報のボトルネックのため、全ての情報を同時に処理することはできない。視覚情報の冗長な入力を減らすために、人間の視覚系は主にシーンの支配的な部分に焦点を当てている。これはビジュアル・サリエンシ・マップの予測として知られている。本稿では,人間の視覚野の多チャンネルモデルにインスパイアされた新しいサイコフィジカルサリエンシ予測アーキテクチャであるWECSFを提案する。このモデルは、対向色チャネル、ウェーブレット変換、ウェーブレットエネルギーマップ、および低レベルの画像特徴を抽出し、人間の視覚システムへの最大近似を提供するコントラスト感度関数からなる。提案モデルは、MIT1003, MIT300, TORONTO, SID4VAM, UCF Sportsデータセットなど、いくつかのデータセットを用いて評価される。また, 精度予測性能を他の最先端モデルと比較し, 定量的, 質的に比較した。本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。さらに,フーリエとスペクトルにインスパイアされた塩分予測モデルが,心理物理学的な合成画像において,最先端の非ニューラルネットワークや深層ニューラルネットワークモデルよりも優れていた。これはフーリエ視覚仮説によって説明され、支持される。一方、深層ニューラルネットワークは、精神物理学的な合成画像上での健全なパフォーマンスをより確実に予測するために、特定のアーキテクチャと目標が必要であることを示唆している。最後に,提案モデルは霊長類視覚システムの計算モデルとして用いられ,霊長類視覚系のメカニズムを理解するのに役立つ。

関連論文リスト

Human-level 3D shape perception emerges from multi-view learning [63.048728487674815]
任意のオブジェクトに対する人間の3次元形状推論を予測するためのモデリングフレームワークを開発する。我々は、自然主義的な知覚データよりも視覚空間的目的を用いて訓練された新しいニューラルネットワークのクラスでこれを達成した。人間のレベル3D知覚は、自然主義的な視覚空間データよりもシンプルでスケーラブルな学習目標から生まれる可能性がある。
論文参考訳（メタデータ） (2026-02-19T18:56:05Z)
Modeling the Human Visual System: Comparative Insights from Response-Optimized and Task-Optimized Vision Models, Language Models, and different Readout Mechanisms [1.515687944002438]
視覚入力を用いた応答最適化モデルでは,早期・中期の視覚領域において,より優れた予測精度が得られることを示す。言語的記述では捉えられない入力の知覚的特徴に敏感な視覚野の3つの異なる領域を同定する。本稿では,意味的内容に基づいて受容場や特徴マップを変調し,既存のSOTAよりも3～23%精度が向上する手法を提案する。
論文参考訳（メタデータ） (2024-10-17T21:11:13Z)
pAE: An Efficient Autoencoder Architecture for Modeling the Lateral Geniculate Nucleus by Integrating Feedforward and Feedback Streams in Human Visual System [0.716879432974126]
本稿では,人間の視覚情報処理を近似した深部畳み込みモデルを提案する。本研究の目的は、訓練された浅部畳み込みモデルを用いて、外側原核(LGN)領域の機能を近似することである。 pAEモデルは最終99.26%の予測性能を達成し、時間モードでの人間の結果よりも約28%向上したことを示す。
論文参考訳（メタデータ） (2024-09-20T16:33:01Z)
Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文参考訳（メタデータ） (2024-04-17T11:55:45Z)
Unidirectional brain-computer interface: Artificial neural network encoding natural images to fMRI response in the visual cortex [12.1427193917406]
本稿では,人間の脳を模倣する人工ニューラルネットワークVISIONを提案する。 VISIONは、人間の血行動態の反応をfMRIボクセル値として、最先端の性能を超える精度で45%の精度で予測することに成功した。
論文参考訳（メタデータ） (2023-09-26T15:38:26Z)
Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。 CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文参考訳（メタデータ） (2023-05-17T11:36:40Z)
GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文参考訳（メタデータ） (2023-03-24T03:32:02Z)
Adapting Brain-Like Neural Networks for Modeling Cortical Visual Prostheses [68.96380145211093]
皮質補綴は視覚野に移植された装置で、電気的にニューロンを刺激することで失った視力を回復しようとする。現在、これらのデバイスが提供する視覚は限られており、刺激による視覚知覚を正確に予測することはオープンな課題である。我々は、視覚システムの有望なモデルとして登場した「脳様」畳み込みニューラルネットワーク(CNN)を活用することで、この問題に対処することを提案する。
論文参考訳（メタデータ） (2022-09-27T17:33:19Z)
A domain adaptive deep learning solution for scanpath prediction of paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文参考訳（メタデータ） (2022-09-22T22:27:08Z)
Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文参考訳（メタデータ） (2022-06-15T03:44:42Z)
Neural Implicit Representations for Physical Parameter Inference from a Single Video [49.766574469284485]
本稿では,外見モデルのためのニューラル暗黙表現と,物理現象をモデル化するためのニューラル常微分方程式(ODE)を組み合わせることを提案する。提案モデルでは,大規模なトレーニングデータセットを必要とする既存のアプローチとは対照的に,単一のビデオから物理的パラメータを識別することが可能になる。ニューラル暗示表現を使用することで、高解像度ビデオの処理とフォトリアリスティック画像の合成が可能になる。
論文参考訳（メタデータ） (2022-04-29T11:55:35Z)
Emergent Properties of Foveated Perceptual Systems [3.3504365823045044]
この研究は、周囲の視線とテクスチャのようなエンコーディングの中心において、より高い明度を持つ、織り成された人間の視覚システムにインスパイアされている。本稿では,第1段のテクティット固定画像変換と第2段のテクティット学習可能な畳み込みニューラルネットワークを用いたモデルを提案する。周辺テクスチャベースの計算によるファベーションにより、シーン情報の効率的で明瞭でロバストな表現形式が得られます。
論文参考訳（メタデータ） (2020-06-14T19:34:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。