論文の概要: SALYPATH: A Deep-Based Architecture for visual attention prediction
- arxiv url: http://arxiv.org/abs/2107.00559v1
- Date: Tue, 29 Jun 2021 08:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:44:11.033105
- Title: SALYPATH: A Deep-Based Architecture for visual attention prediction
- Title(参考訳): SALYPATH:視覚的注意予測のためのディープベースアーキテクチャ
- Authors: Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani, Rachid
Harba
- Abstract要約: 視覚的注意は、画像圧縮、認識、キャプションなどの多くのコンピュータビジョンアプリケーションに有用である。
本稿では, 画像の走査パスを, サリエンシモデルの特徴を通して効率的に予測する, いわゆるSALYPATHを提案する。
その考え方は、深いベースモデルの能力を利用してスキャンパスを予測し、サリエンシを予測することである。
- 参考スコア(独自算出の注目度): 5.068678962285629
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human vision is naturally more attracted by some regions within their field
of view than others. This intrinsic selectivity mechanism, so-called visual
attention, is influenced by both high- and low-level factors; such as the
global environment (illumination, background texture, etc.), stimulus
characteristics (color, intensity, orientation, etc.), and some prior visual
information. Visual attention is useful for many computer vision applications
such as image compression, recognition, and captioning. In this paper, we
propose an end-to-end deep-based method, so-called SALYPATH (SALiencY and
scanPATH), that efficiently predicts the scanpath of an image through features
of a saliency model. The idea is predict the scanpath by exploiting the
capacity of a deep-based model to predict the saliency. The proposed method was
evaluated through 2 well-known datasets. The results obtained showed the
relevance of the proposed framework comparing to state-of-the-art models.
- Abstract(参考訳): 人間の視覚は、自然界の他の領域よりも一部の領域に惹かれている。
この内在的な選択機構、いわゆる視覚的注意は、地球環境(照明、背景テクスチャなど)のような高レベルと低レベルの要素の両方に影響されている。
),刺激特性(色,強度,方向など)。
) および, 先行する視覚情報。
視覚的注意は、画像圧縮、認識、キャプションなどの多くのコンピュータビジョンアプリケーションに有用である。
本稿では,salypath(saliency and scanpath)と呼ばれるエンド・ツー・エンドの深層ベース手法を提案する。
その考え方は、深いベースモデルの能力を利用してスキャンパスを予測し、サリエンシを予測することである。
提案手法は2つのよく知られたデータセットを用いて評価した。
その結果,提案手法と最先端モデルとの関連性を示した。
関連論文リスト
- Foveation in the Era of Deep Learning [6.602118206533142]
本稿では,グラフ畳み込みネットワークを利用してフェーブ化された画像を処理する,エンドツーエンドで微分可能なアクティブ・ビジョン・アーキテクチャを提案する。
我々のモデルは、分類に関連する画像の領域に反復的に出席することを学ぶ。
我々のモデルは最先端のCNNと、同等のパラメータと与えられたピクセルや予算の視覚アーキテクチャより優れています。
論文 参考訳(メタデータ) (2023-12-03T16:48:09Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Behind the Machine's Gaze: Biologically Constrained Neural Networks
Exhibit Human-like Visual Attention [40.878963450471026]
トップダウン方式でビジュアル・スキャンパスを生成するニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。
提案手法は,人間の走査パスと類似性の観点から,最先端の非監視的注意モデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-04-19T18:57:47Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - Silhouette based View embeddings for Gait Recognition under Multiple
Views [46.087837374748005]
本稿では,既存の歩行認識アーキテクチャにビュー情報を組み込む,互換性のあるフレームワークを提案する。
2つの大規模な公開データセットの実験結果から,提案フレームワークは非常に有効であることがわかった。
論文 参考訳(メタデータ) (2021-08-12T04:19:04Z) - Understanding Character Recognition using Visual Explanations Derived
from the Human Visual System and Deep Networks [6.734853055176694]
深層ニューラルネットワークの情報収集戦略における合同性,あるいはその欠如について検討する。
深層学習モデルは、人間が正しく分類された文字に対して固定した文字の類似した領域を考慮に入れた。
本稿では、視線追跡実験から得られた視覚的固定マップを、モデルが関連する文字領域に焦点を合わせるための監督入力として用いることを提案する。
論文 参考訳(メタデータ) (2021-08-10T10:09:37Z) - What Image Features Boost Housing Market Predictions? [81.32205133298254]
本稿では,予測アルゴリズムにおける効率的な数値包摂のための視覚特徴抽出手法を提案する。
本稿では,シャノンのエントロピー,重心計算,画像分割,畳み込みニューラルネットワークなどの手法について論じる。
ここで選択された40の画像特徴のセットは、かなりの量の予測能力を持ち、最も強力なメタデータ予測器よりも優れています。
論文 参考訳(メタデータ) (2021-07-15T06:32:10Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - A Psychophysically Oriented Saliency Map Prediction Model [4.884688557957589]
本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。
提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
論文 参考訳(メタデータ) (2020-11-08T20:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。