論文の概要: Semantic Segmentation Enhanced Transformer Model for Human Attention
Prediction
- arxiv url: http://arxiv.org/abs/2301.11022v1
- Date: Thu, 26 Jan 2023 10:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 14:03:42.694116
- Title: Semantic Segmentation Enhanced Transformer Model for Human Attention
Prediction
- Title(参考訳): セマンティクスセグメンテーションによる人間注意予測のためのトランスフォーマーモデル
- Authors: Shuo Zhang
- Abstract要約: 唾液度予測は、RGB画像が与えられた人間の眼の注意分布を予測することを目的としている。
最近の最先端手法のほとんどは、従来のCNNのディープイメージ特徴表現に基づいている。
意味的セグメンテーションを学習目的とするトランスフォーマーに基づく手法を提案する。
- 参考スコア(独自算出の注目度): 8.47446520519624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Saliency Prediction aims to predict the attention distribution of human eyes
given an RGB image. Most of the recent state-of-the-art methods are based on
deep image feature representations from traditional CNNs. However, the
traditional convolution could not capture the global features of the image well
due to its small kernel size. Besides, the high-level factors which closely
correlate to human visual perception, e.g., objects, color, light, etc., are
not considered. Inspired by these, we propose a Transformer-based method with
semantic segmentation as another learning objective. More global cues of the
image could be captured by Transformer. In addition, simultaneously learning
the object segmentation simulates the human visual perception, which we would
verify in our investigation of human gaze control in cognitive science. We
build an extra decoder for the subtask and the multiple tasks share the same
Transformer encoder, forcing it to learn from multiple feature spaces. We find
in practice simply adding the subtask might confuse the main task learning,
hence Multi-task Attention Module is proposed to deal with the feature
interaction between the multiple learning targets. Our method achieves
competitive performance compared to other state-of-the-art methods.
- Abstract(参考訳): 塩分予測は、rgb画像から人間の眼の注意分布を予測することを目的としている。
最近の最先端手法のほとんどは、従来のCNNのディープイメージ特徴表現に基づいている。
しかし、伝統的な畳み込みは、カーネルサイズが小さいため、画像のグローバルな特徴をうまく捉えられなかった。
また、物体、色、光など、人間の視覚知覚と密接に関連している高レベル要因も考慮されていない。
そこで本研究では,意味的セグメンテーションを学習目的とするTransformerに基づく手法を提案する。
よりグローバルな画像の手がかりはTransformerが捉えた。
さらに,物体のセグメンテーションを同時に学習することで人間の視覚知覚をシミュレートし,認知科学における人間の視線制御の検証を行う。
サブタスクのための余分なデコーダを構築し、複数のタスクは同じTransformerエンコーダを共有し、複数の機能空間から学ぶことを強制します。
サブタスクの追加がメインタスク学習を混乱させる可能性があるため、マルチタスクアテンションモジュールは、複数の学習対象間の機能インタラクションに対処するために提案されている。
本手法は他の最先端手法と比較して競争性能が向上する。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Visual Transformer for Object Detection [0.0]
我々は、自己注意を識別的視覚的タスク、オブジェクト検出に用いて、畳み込みの代替として検討する。
我々のモデルは、多くの異なるモデルとスケールにわたるCOCOのオブジェクト検出において、一貫した改善をもたらす。
論文 参考訳(メタデータ) (2022-06-01T06:13:09Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Combining Semantic Guidance and Deep Reinforcement Learning For
Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。
従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。
本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文 参考訳(メタデータ) (2020-11-25T09:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。