論文の概要: Bio-Inspired Representation Learning for Visual Attention Prediction
- arxiv url: http://arxiv.org/abs/2103.05310v1
- Date: Tue, 9 Mar 2021 09:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 16:22:43.755599
- Title: Bio-Inspired Representation Learning for Visual Attention Prediction
- Title(参考訳): 視覚注意予測のためのバイオインスパイア表現学習
- Authors: Yuan Yuan, Hailong Ning, and Xiaoqiang Lu
- Abstract要約: バイオインスパイアされた表現学習により視覚的注意マップを生成する新しいVAP法を提案する。
提案手法は, 特徴抽出, 2) バイオインスパイア表現学習, 3) 視覚注意マップ生成の3つのステップからなる。
- 参考スコア(独自算出の注目度): 35.190858116966965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Attention Prediction (VAP) is a significant and imperative issue in
the field of computer vision. Most of existing VAP methods are based on deep
learning. However, they do not fully take advantage of the low-level contrast
features while generating the visual attention map. In this paper, a novel VAP
method is proposed to generate visual attention map via bio-inspired
representation learning. The bio-inspired representation learning combines both
low-level contrast and high-level semantic features simultaneously, which are
developed by the fact that human eye is sensitive to the patches with high
contrast and objects with high semantics. The proposed method is composed of
three main steps: 1) feature extraction, 2) bio-inspired representation
learning and 3) visual attention map generation. Firstly, the high-level
semantic feature is extracted from the refined VGG16, while the low-level
contrast feature is extracted by the proposed contrast feature extraction block
in a deep network. Secondly, during bio-inspired representation learning, both
the extracted low-level contrast and high-level semantic features are combined
by the designed densely connected block, which is proposed to concatenate
various features scale by scale. Finally, the weighted-fusion layer is
exploited to generate the ultimate visual attention map based on the obtained
representations after bio-inspired representation learning. Extensive
experiments are performed to demonstrate the effectiveness of the proposed
method.
- Abstract(参考訳): 視覚的注意予測(VAP)は、コンピュータビジョンの分野で重要かつ不可欠な問題です。
既存のVAPメソッドのほとんどはディープラーニングに基づいている。
しかし、視覚的注意マップを生成しながら、低レベルのコントラスト特徴を完全に活用するわけではない。
本稿では,バイオインスパイアされた表現学習による視覚的注意マップ作成のための新しいVAP手法を提案する。
バイオインスパイアされた表現学習は低レベルのコントラストと高レベルのセマンティックな特徴を同時に組み合わせ、人間の目は高いコントラストを持つパッチと高いセマンティクスを持つオブジェクトに敏感であるという事実によって発展した。
提案手法は, 特徴抽出, 2) バイオインスパイアされた表現学習, 3) 視覚的注意マップ生成の3段階からなる。
まず、洗練されたvgg16から高レベル意味特徴を抽出し、深層ネットワークにおいて提案するコントラスト特徴抽出ブロックにより低レベルのコントラスト特徴を抽出する。
次に、バイオインスパイア表現学習において、抽出された低レベルコントラストと高レベルセマンティクス特徴の両方を、様々な特徴をスケールで結合するために提案される密結合ブロックによって結合する。
最後に、重み付き融合層を使用して、バイオインスパイアされた表現学習後に得られた表現に基づいて究極の視覚的注意マップを生成します。
提案手法の有効性を示すため,広範な実験を行った。
関連論文リスト
- Extremely Fine-Grained Visual Classification over Resembling Glyphs in the Wild [15.102325077732745]
グリフに類似した認識課題に対する2段階のコントラスト学習手法を提案する。
最初の段階では、教師付きコントラスト学習を利用してラベル情報を利用してバックボーンネットワークをウォームアップする。
第2段階では、Euclidean空間とAngular空間の両方で分類とコントラスト学習を統合するネットワークアーキテクチャであるCCFG-Netを導入する。
論文 参考訳(メタデータ) (2024-08-25T08:59:27Z) - Visual Neural Decoding via Improved Visual-EEG Semantic Consistency [3.4061238650474657]
EEG機能をCLIP埋め込みスペースに直接マッピングするメソッドは、マッピングバイアスを導入し、セマンティックな矛盾を引き起こす可能性がある。
最適アライメントを容易にするために,これらの2つのモードのセマンティックな特徴を明示的に抽出する Visual-EEG Semantic Decouple Framework を提案する。
提案手法は,ゼロショットニューラルデコードタスクの最先端化を実現する。
論文 参考訳(メタデータ) (2024-08-13T10:16:10Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - Weakly-Supervised Text-driven Contrastive Learning for Facial Behavior
Understanding [12.509298933267221]
本稿では,顔行動理解のための2段階のコントラスト学習フレームワークについて紹介する。
第1段階は、粗い活動情報を用いて構築された正負の対から表現を学習する、弱教師付きコントラスト学習法である。
第2段階は、画像と対応するテキストラベル名との類似性を最大化することにより、表情や顔の動作単位の認識を訓練することを目的としている。
論文 参考訳(メタデータ) (2023-03-31T18:21:09Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Few-Shot Object Detection by Knowledge Distillation Using
Bag-of-Visual-Words Representations [58.48995335728938]
対象検出器の学習を導くための新しい知識蒸留フレームワークを設計する。
まず,視覚単語の代表的な袋を学習するための単語の位置認識モデルを提案する。
次に、2つの異なる特徴空間において、画像が一貫したBoVW表現を持つべきであるという事実に基づいて知識蒸留を行う。
論文 参考訳(メタデータ) (2022-07-25T10:40:40Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。