論文の概要: GASP: Gated Attention For Saliency Prediction
- arxiv url: http://arxiv.org/abs/2206.04590v1
- Date: Thu, 9 Jun 2022 16:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 13:38:40.935867
- Title: GASP: Gated Attention For Saliency Prediction
- Title(参考訳): gasp: 塩分予測に注意を向ける
- Authors: Fares Abawi, Tom Weber and Stefan Wermter
- Abstract要約: 社会的手がかりの統合と影響の重み付けのためのニューラルモデルを提案する。
本研究では,視線方向と感情表現が,動的サリエンシモデルと比較して,少なくとも5%の地道改善に寄与していることを示す。
- 参考スコア(独自算出の注目度): 18.963277212703005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Saliency prediction refers to the computational task of modeling overt
attention. Social cues greatly influence our attention, consequently altering
our eye movements and behavior. To emphasize the efficacy of such features, we
present a neural model for integrating social cues and weighting their
influences. Our model consists of two stages. During the first stage, we detect
two social cues by following gaze, estimating gaze direction, and recognizing
affect. These features are then transformed into spatiotemporal maps through
image processing operations. The transformed representations are propagated to
the second stage (GASP) where we explore various techniques of late fusion for
integrating social cues and introduce two sub-networks for directing attention
to relevant stimuli. Our experiments indicate that fusion approaches achieve
better results for static integration methods, whereas non-fusion approaches
for which the influence of each modality is unknown, result in better outcomes
when coupled with recurrent models for dynamic saliency prediction. We show
that gaze direction and affective representations contribute a prediction to
ground-truth correspondence improvement of at least 5% compared to dynamic
saliency models without social cues. Furthermore, affective representations
improve GASP, supporting the necessity of considering affect-biased attention
in predicting saliency.
- Abstract(参考訳): 正当性予測とは、過剰な注意をモデル化する計算タスクを指す。
社会的手がかりは我々の注意に大きく影響を与え、その結果我々の目の動きと行動を変える。
このような特徴の有効性を強調するために,社会的手がかりの統合と影響の重み付けのためのニューラルモデルを提案する。
私たちのモデルは2つの段階からなる。
第1段階では、視線を追従し、視線方向を推定し、影響を認識することにより、2つの社会的手がかりを検出する。
これらの特徴は画像処理操作によって時空間マップに変換される。
変換された表現は第2段階(GASP)に伝播し,後期融合の様々な技法を探求し,関連する刺激に注意を向ける2つのサブネットワークを導入する。
実験により, 拡散法は静的積分法においてより良い結果が得られることが示されたが, 各モードの影響が不明な非融合法では, 動的塩分率予測の繰り返しモデルと組み合わせることで, より良い結果が得られることがわかった。
視線方向と感情表現は,社会的手がかりのない動的サリエンシモデルと比較して,少なくとも5%の地道対応改善に寄与することを示した。
さらに、情意表現は、敬礼の予測において感情バイアスの注意を考慮する必要性をサポートするため、gaspを改善する。
関連論文リスト
- Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - Enhancing Population-based Search with Active Inference [0.0]
本稿では,アクティブ推論を人口ベースメタヒューリスティクスに統合し,性能を向上させることを提案する。
実験結果から,能動推論は計算コストを極端に増加させるだけで,いくつかの改善された解が得られることが示唆された。
論文 参考訳(メタデータ) (2024-08-18T17:21:21Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Disentangled Neural Relational Inference for Interpretable Motion
Prediction [38.40799770648501]
グラフベース表現と時系列モデルを統合した変分自動エンコーダフレームワークを開発した。
本モデルでは,対話を特徴付ける解釈可能なエッジ特徴を付加した動的相互作用グラフを推論する。
シミュレーションと実世界の両方のデータセットに関する広範な実験を通じて、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-01-07T22:49:24Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - What Do Deep Saliency Models Learn about Visual Attention? [28.023464783469738]
本稿では,サリエンシモデルによって学習された暗黙的特徴に光を当てる新しい分析フレームワークを提案する。
提案手法では,これらの暗黙的特徴を意味的属性に明示的に一致した解釈可能なベースに分解する。
論文 参考訳(メタデータ) (2023-10-14T23:15:57Z) - An Ensemble Approach for Facial Expression Analysis in Video [5.363490780925308]
本稿では,ABAW3 2022の課題について紹介する。
論文は問題の解決に焦点を当てている。
価-覚醒推定とアクションユニット検出。
論文 参考訳(メタデータ) (2022-03-24T07:25:23Z) - Dyadic Human Motion Prediction [119.3376964777803]
本稿では,2つの被験者の相互作用を明示的に推論する動き予測フレームワークを提案する。
具体的には,2つの被験者の運動履歴の相互依存をモデル化する一対の注意機構を導入する。
これにより、より現実的な方法で長期の運動力学を保ち、異常かつ高速な運動を予測することができる。
論文 参考訳(メタデータ) (2021-12-01T10:30:40Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational
Reasoning [41.42230144157259]
本稿では,関係構造を明示的に認識し,潜在相互作用グラフによる予測を行う汎用軌道予測フレームワークを提案する。
将来の行動の不確実性を考慮すると、モデルはマルチモーダルな予測仮説を提供するように設計されている。
トレーニング効率を向上し、収束を加速するだけでなく、モデル性能も向上する2段トレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2020-03-31T02:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。