Fugu-MT 論文翻訳(概要): GASP: Gated Attention For Saliency Prediction

論文の概要: GASP: Gated Attention For Saliency Prediction

arxiv url: http://arxiv.org/abs/2206.04590v1
Date: Thu, 9 Jun 2022 16:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-10 13:38:40.935867
Title: GASP: Gated Attention For Saliency Prediction
Title（参考訳）: gasp: 塩分予測に注意を向ける
Authors: Fares Abawi, Tom Weber and Stefan Wermter
Abstract要約: 社会的手がかりの統合と影響の重み付けのためのニューラルモデルを提案する。本研究では,視線方向と感情表現が,動的サリエンシモデルと比較して,少なくとも5%の地道改善に寄与していることを示す。
参考スコア（独自算出の注目度）: 18.963277212703005
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Saliency prediction refers to the computational task of modeling overt attention. Social cues greatly influence our attention, consequently altering our eye movements and behavior. To emphasize the efficacy of such features, we present a neural model for integrating social cues and weighting their influences. Our model consists of two stages. During the first stage, we detect two social cues by following gaze, estimating gaze direction, and recognizing affect. These features are then transformed into spatiotemporal maps through image processing operations. The transformed representations are propagated to the second stage (GASP) where we explore various techniques of late fusion for integrating social cues and introduce two sub-networks for directing attention to relevant stimuli. Our experiments indicate that fusion approaches achieve better results for static integration methods, whereas non-fusion approaches for which the influence of each modality is unknown, result in better outcomes when coupled with recurrent models for dynamic saliency prediction. We show that gaze direction and affective representations contribute a prediction to ground-truth correspondence improvement of at least 5% compared to dynamic saliency models without social cues. Furthermore, affective representations improve GASP, supporting the necessity of considering affect-biased attention in predicting saliency.
Abstract（参考訳）: 正当性予測とは、過剰な注意をモデル化する計算タスクを指す。社会的手がかりは我々の注意に大きく影響を与え、その結果我々の目の動きと行動を変える。このような特徴の有効性を強調するために,社会的手がかりの統合と影響の重み付けのためのニューラルモデルを提案する。私たちのモデルは2つの段階からなる。第1段階では、視線を追従し、視線方向を推定し、影響を認識することにより、2つの社会的手がかりを検出する。これらの特徴は画像処理操作によって時空間マップに変換される。変換された表現は第2段階(GASP)に伝播し,後期融合の様々な技法を探求し,関連する刺激に注意を向ける2つのサブネットワークを導入する。実験により, 拡散法は静的積分法においてより良い結果が得られることが示されたが, 各モードの影響が不明な非融合法では, 動的塩分率予測の繰り返しモデルと組み合わせることで, より良い結果が得られることがわかった。視線方向と感情表現は,社会的手がかりのない動的サリエンシモデルと比較して,少なくとも5%の地道対応改善に寄与することを示した。さらに、情意表現は、敬礼の予測において感情バイアスの注意を考慮する必要性をサポートするため、gaspを改善する。

関連論文リスト

Human Scanpath Prediction in Target-Present Visual Search with Semantic-Foveal Bayesian Attention [49.99728312519117]
SemBA-FASTは、ターゲットの視覚検索における人間の視覚的注意を予測するためのトップダウンフレームワークである。我々は、COCO-Search18ベンチマークデータセット上でSemBA-FASTを評価し、その性能を他のスキャンパス予測モデルと比較した。これらの知見は、人間のような注意モデリングのためのセマンティック・フレーバー・確率的フレームワークの能力に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2025-07-24T15:19:23Z)
Dynamic Programming Techniques for Enhancing Cognitive Representation in Knowledge Tracing [125.75923987618977]
認知表現動的プログラミングに基づく知識追跡(CRDP-KT)モデルを提案する。質問の難易度とそれらの間の性能間隔に基づいて認知表現を最適化する動的プログラミングアルゴリズムである。これは、その後のモデルトレーニングのためにより正確で体系的な入力機能を提供し、それによって認知状態のシミュレーションにおける歪みを最小限にする。
論文参考訳（メタデータ） (2025-06-03T14:44:48Z)
An Active Inference Model of Covert and Overt Visual Attention [0.0]
本稿では,アクティブな推論の枠組みを通じて,隠蔽と過度な視覚的注意のモデルを提案する。このモデルは、現在の環境信念と感覚入力の両方に基づいて視覚感覚の精度を決定する。
論文参考訳（メタデータ） (2025-05-06T09:26:00Z)
A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文参考訳（メタデータ） (2025-04-09T11:46:41Z)
Diffusion-Based Imitation Learning for Social Pose Generation [0.0]
ロボットや仮想エージェントのような知的なエージェントは、人間と対話する複雑な社会的相互作用のダイナミクスを理解する必要がある。我々は、社会的相互作用における複数の個人の単一のモダリティ、ポーズ行動を用いて、その相互作用のファシリテータのための非言語的社会的手がかりを生成する方法について検討する。
論文参考訳（メタデータ） (2025-01-18T20:31:55Z)
Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文参考訳（メタデータ） (2024-10-24T17:58:05Z)
Enhancing Population-based Search with Active Inference [0.0]
本稿では,アクティブ推論を人口ベースメタヒューリスティクスに統合し,性能を向上させることを提案する。実験結果から,能動推論は計算コストを極端に増加させるだけで,いくつかの改善された解が得られることが示唆された。
論文参考訳（メタデータ） (2024-08-18T17:21:21Z)
What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文参考訳（メタデータ） (2024-03-10T04:23:24Z)
Disentangled Neural Relational Inference for Interpretable Motion Prediction [38.40799770648501]
グラフベース表現と時系列モデルを統合した変分自動エンコーダフレームワークを開発した。本モデルでは,対話を特徴付ける解釈可能なエッジ特徴を付加した動的相互作用グラフを推論する。シミュレーションと実世界の両方のデータセットに関する広範な実験を通じて、我々のアプローチを検証する。
論文参考訳（メタデータ） (2024-01-07T22:49:24Z)
Disentangled Interaction Representation for One-Stage Human-Object Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文参考訳（メタデータ） (2023-12-04T08:02:59Z)
What Do Deep Saliency Models Learn about Visual Attention? [28.023464783469738]
本稿では,サリエンシモデルによって学習された暗黙的特徴に光を当てる新しい分析フレームワークを提案する。提案手法では,これらの暗黙的特徴を意味的属性に明示的に一致した解釈可能なベースに分解する。
論文参考訳（メタデータ） (2023-10-14T23:15:57Z)
An Ensemble Approach for Facial Expression Analysis in Video [5.363490780925308]
本稿では,ABAW3 2022の課題について紹介する。論文は問題の解決に焦点を当てている。価-覚醒推定とアクションユニット検出。
論文参考訳（メタデータ） (2022-03-24T07:25:23Z)
Dyadic Human Motion Prediction [119.3376964777803]
本稿では,2つの被験者の相互作用を明示的に推論する動き予測フレームワークを提案する。具体的には,2つの被験者の運動履歴の相互依存をモデル化する一対の注意機構を導入する。これにより、より現実的な方法で長期の運動力学を保ち、異常かつ高速な運動を予測することができる。
論文参考訳（メタデータ） (2021-12-01T10:30:40Z)
Towards Robust and Adaptive Motion Forecasting: A Causal Representation Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文参考訳（メタデータ） (2021-11-29T18:59:09Z)
Variational Structured Attention Networks for Deep Visual Representation Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文参考訳（メタデータ） (2021-03-05T07:37:24Z)
EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational Reasoning [41.42230144157259]
本稿では,関係構造を明示的に認識し,潜在相互作用グラフによる予測を行う汎用軌道予測フレームワークを提案する。将来の行動の不確実性を考慮すると、モデルはマルチモーダルな予測仮説を提供するように設計されている。トレーニング効率を向上し、収束を加速するだけでなく、モデル性能も向上する2段トレーニングパイプラインを導入する。
論文参考訳（メタデータ） (2020-03-31T02:49:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。