論文の概要: SALYPATH: A Deep-Based Architecture for visual attention prediction
- arxiv url: http://arxiv.org/abs/2107.00559v1
- Date: Tue, 29 Jun 2021 08:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:44:11.033105
- Title: SALYPATH: A Deep-Based Architecture for visual attention prediction
- Title(参考訳): SALYPATH:視覚的注意予測のためのディープベースアーキテクチャ
- Authors: Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani, Rachid
Harba
- Abstract要約: 視覚的注意は、画像圧縮、認識、キャプションなどの多くのコンピュータビジョンアプリケーションに有用である。
本稿では, 画像の走査パスを, サリエンシモデルの特徴を通して効率的に予測する, いわゆるSALYPATHを提案する。
その考え方は、深いベースモデルの能力を利用してスキャンパスを予測し、サリエンシを予測することである。
- 参考スコア(独自算出の注目度): 5.068678962285629
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human vision is naturally more attracted by some regions within their field
of view than others. This intrinsic selectivity mechanism, so-called visual
attention, is influenced by both high- and low-level factors; such as the
global environment (illumination, background texture, etc.), stimulus
characteristics (color, intensity, orientation, etc.), and some prior visual
information. Visual attention is useful for many computer vision applications
such as image compression, recognition, and captioning. In this paper, we
propose an end-to-end deep-based method, so-called SALYPATH (SALiencY and
scanPATH), that efficiently predicts the scanpath of an image through features
of a saliency model. The idea is predict the scanpath by exploiting the
capacity of a deep-based model to predict the saliency. The proposed method was
evaluated through 2 well-known datasets. The results obtained showed the
relevance of the proposed framework comparing to state-of-the-art models.
- Abstract(参考訳): 人間の視覚は、自然界の他の領域よりも一部の領域に惹かれている。
この内在的な選択機構、いわゆる視覚的注意は、地球環境(照明、背景テクスチャなど)のような高レベルと低レベルの要素の両方に影響されている。
),刺激特性(色,強度,方向など)。
) および, 先行する視覚情報。
視覚的注意は、画像圧縮、認識、キャプションなどの多くのコンピュータビジョンアプリケーションに有用である。
本稿では,salypath(saliency and scanpath)と呼ばれるエンド・ツー・エンドの深層ベース手法を提案する。
その考え方は、深いベースモデルの能力を利用してスキャンパスを予測し、サリエンシを予測することである。
提案手法は2つのよく知られたデータセットを用いて評価した。
その結果,提案手法と最先端モデルとの関連性を示した。
関連論文リスト
- Low-Light Enhancement Effect on Classification and Detection: An Empirical Study [48.6762437869172]
我々は,低照度画像強調法(LLIE)が高レベル視覚タスクに与える影響を評価する。
本研究は,人間の視覚知覚における画像強調と,機械解析における切り離しを示唆するものである。
この洞察は、人間と機械の視覚の両方のニーズに合致するLLIE技術の開発に不可欠である。
論文 参考訳(メタデータ) (2024-09-22T14:21:31Z) - pAE: An Efficient Autoencoder Architecture for Modeling the Lateral Geniculate Nucleus by Integrating Feedforward and Feedback Streams in Human Visual System [0.716879432974126]
本稿では,人間の視覚情報処理を近似した深部畳み込みモデルを提案する。
本研究の目的は、訓練された浅部畳み込みモデルを用いて、外側原核(LGN)領域の機能を近似することである。
pAEモデルは最終99.26%の予測性能を達成し、時間モードでの人間の結果よりも約28%向上したことを示す。
論文 参考訳(メタデータ) (2024-09-20T16:33:01Z) - Data Augmentation via Latent Diffusion for Saliency Prediction [67.88936624546076]
残差予測モデルはラベル付きデータの限られた多様性と量によって制約される。
本研究では,実世界のシーンの複雑さと変動性を保ちながら,自然画像の編集を行うディープ・サリエンシ・予測のための新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-09-11T14:36:24Z) - Foveation in the Era of Deep Learning [6.602118206533142]
本稿では,グラフ畳み込みネットワークを利用してフェーブ化された画像を処理する,エンドツーエンドで微分可能なアクティブ・ビジョン・アーキテクチャを提案する。
我々のモデルは、分類に関連する画像の領域に反復的に出席することを学ぶ。
我々のモデルは最先端のCNNと、同等のパラメータと与えられたピクセルや予算の視覚アーキテクチャより優れています。
論文 参考訳(メタデータ) (2023-12-03T16:48:09Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Behind the Machine's Gaze: Biologically Constrained Neural Networks
Exhibit Human-like Visual Attention [40.878963450471026]
トップダウン方式でビジュアル・スキャンパスを生成するニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。
提案手法は,人間の走査パスと類似性の観点から,最先端の非監視的注意モデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-04-19T18:57:47Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - What Image Features Boost Housing Market Predictions? [81.32205133298254]
本稿では,予測アルゴリズムにおける効率的な数値包摂のための視覚特徴抽出手法を提案する。
本稿では,シャノンのエントロピー,重心計算,画像分割,畳み込みニューラルネットワークなどの手法について論じる。
ここで選択された40の画像特徴のセットは、かなりの量の予測能力を持ち、最も強力なメタデータ予測器よりも優れています。
論文 参考訳(メタデータ) (2021-07-15T06:32:10Z) - A Psychophysically Oriented Saliency Map Prediction Model [4.884688557957589]
本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。
提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
論文 参考訳(メタデータ) (2020-11-08T20:58:05Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。