論文の概要: Interaction-aware Joint Attention Estimation Using People Attributes
- arxiv url: http://arxiv.org/abs/2308.05382v1
- Date: Thu, 10 Aug 2023 06:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 13:29:48.282348
- Title: Interaction-aware Joint Attention Estimation Using People Attributes
- Title(参考訳): 人的属性を用いたインタラクションアウェア共同注意推定
- Authors: Chihiro Nakatani, Hiroaki Kawashima, Norimichi Ukita
- Abstract要約: 本稿では,単一画像における共同注意推定を提案する。
インタラクション・モデリングのために,低次元の特徴として共同注意を符号化するトランスフォーマー・アテンション・ネットワークを提案する。
比較実験でSOTA法を定量的に比較した。
- 参考スコア(独自算出の注目度): 6.8603181780291065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes joint attention estimation in a single image. Different
from related work in which only the gaze-related attributes of people are
independently employed, (I) their locations and actions are also employed as
contextual cues for weighting their attributes, and (ii) interactions among all
of these attributes are explicitly modeled in our method. For the interaction
modeling, we propose a novel Transformer-based attention network to encode
joint attention as low-dimensional features. We introduce a specialized MLP
head with positional embedding to the Transformer so that it predicts pixelwise
confidence of joint attention for generating the confidence heatmap. This
pixelwise prediction improves the heatmap accuracy by avoiding the ill-posed
problem in which the high-dimensional heatmap is predicted from the
low-dimensional features. The estimated joint attention is further improved by
being integrated with general image-based attention estimation. Our method
outperforms SOTA methods quantitatively in comparative experiments. Code:
https://anonymous.4open.science/r/anonymized_codes-ECA4.
- Abstract(参考訳): 本稿では,単一画像における共同注意推定を提案する。
人の視線関連属性のみを個別に採用する関連作業と異なり、(I)その位置と行動は属性を重み付けするための文脈的手がかりとしても使用され、(ii)これらの属性間の相互作用は、我々の方法で明示的にモデル化されている。
低次元の特徴として共同注意を符号化するトランスフォーマーに基づく新しいアテンションネットワークを提案する。
本研究では,トランスフォーマーに位置埋め込みを施した特殊なMLPヘッドを導入し,信頼度マップを生成するための共同注意の画素単位の信頼度を予測する。
この画素ワイズ予測は、低次元の特徴から高次元のヒートマップが予測される不適切な問題を回避することにより、ヒートマップ精度を向上させる。
一般画像に基づくアテンション推定と統合することにより、推定されたジョイントアテンションをさらに改善する。
比較実験でSOTA法を定量的に比較した。
コード:https://anonymous.4open.science/r/anonymized_codes-ECA4。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation [14.734158936250918]
短期的オブジェクトインタラクション予測は、ユーザの目標を理解するためにウェアラブルアシスタントやヒューマンロボットのインタラクションに不可欠である。
我々は2つのコントリビューションでSTA予測の性能を改善した。
まず、フレーム誘導時間プーリング、デュアルイメージ・ビデオアテンション、マルチスケール機能融合を統合した新しいアテンションベースアーキテクチャであるSTAformerを提案する。
第2に、手と物体の軌跡の観測から相互作用ホットスポットを予測し、ホットスポット周辺に局在したSTA予測に対する信頼性を高める。
論文 参考訳(メタデータ) (2024-06-03T10:57:18Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Explicit Correspondence Matching for Generalizable Neural Radiance
Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - HHP-Net: A light Heteroscedastic neural network for Head Pose estimation
with uncertainty [2.064612766965483]
そこで,本研究では,頭部キーポイントの小さなセットから始まる,単一画像中の人物の頭部ポーズを推定する新しい手法を提案する。
私たちのモデルは実装が簡単で、芸術の状況に関してより効率的です。
論文 参考訳(メタデータ) (2021-11-02T08:55:45Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Explicitly Modeled Attention Maps for Image Classification [35.72763148637619]
自己注意ネットワークは、画像分類などのコンピュータビジョンタスクにおいて顕著な進歩を見せている。
本稿では,計算オーバーヘッドの少ない1つの学習可能なパラメータのみを用いて,アテンションマップを明示的にモデル化した新しいセルフアテンションモジュールを提案する。
提案手法は,ImageNet ILSVRCのResNetベースラインに対して最大2.2%の精度向上を実現する。
論文 参考訳(メタデータ) (2020-06-14T11:47:09Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。