論文の概要: ViTGaze: Gaze Following with Interaction Features in Vision Transformers
- arxiv url: http://arxiv.org/abs/2403.12778v1
- Date: Tue, 19 Mar 2024 14:45:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:53:54.716634
- Title: ViTGaze: Gaze Following with Interaction Features in Vision Transformers
- Title(参考訳): ViTGaze: ビジョントランスフォーマーのインタラクション機能を備えたゲームフォロー
- Authors: Yuehao Song, Xinggang Wang, Jingfeng Yao, Wenyu Liu, Jinglin Zhang, Xiangmin Xu,
- Abstract要約: 本稿では,新しい単一モダリティ・ギャラクシー・フレームワークであるViTGazeを紹介する。
従来の方法とは対照的に、ViTGazeは、主に強力なエンコーダをベースとした、まったく新しい視点のフレームワークを作成する。
本手法は,すべての単一モダリティ手法において,最先端(SOTA)性能を実現する。
- 参考スコア(独自算出の注目度): 42.08842391756614
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Gaze following aims to interpret human-scene interactions by predicting the person's focal point of gaze. Prevailing approaches often use multi-modality inputs, most of which adopt a two-stage framework. Hence their performance highly depends on the previous prediction accuracy. Others use a single-modality approach with complex decoders, increasing network computational load. Inspired by the remarkable success of pre-trained plain Vision Transformers (ViTs), we introduce a novel single-modality gaze following framework, ViTGaze. In contrast to previous methods, ViTGaze creates a brand new gaze following framework based mainly on powerful encoders (dec. param. less than 1%). Our principal insight lies in that the inter-token interactions within self-attention can be transferred to interactions between humans and scenes. Leveraging this presumption, we formulate a framework consisting of a 4D interaction encoder and a 2D spatial guidance module to extract human-scene interaction information from self-attention maps. Furthermore, our investigation reveals that ViT with self-supervised pre-training exhibits an enhanced ability to extract correlated information. A large number of experiments have been conducted to demonstrate the performance of the proposed method. Our method achieves state-of-the-art (SOTA) performance among all single-modality methods (3.4% improvement on AUC, 5.1% improvement on AP) and very comparable performance against multi-modality methods with 59% number of parameters less.
- Abstract(参考訳): Gaze followingは、人の視線の焦点を予測することによって、人間とシーンの相互作用を解釈することを目的としている。
一般的なアプローチでは、しばしばマルチモーダリティ入力を使用し、そのほとんどは2段階のフレームワークを採用している。
したがって、それらの性能は以前の予測精度に大きく依存する。
複雑なデコーダを持つ単一モダリティアプローチを使用するものもあり、ネットワークの計算負荷が増加する。
事前訓練されたプレーンビジョントランスフォーマー(ViTs)の顕著な成功に触発されて、我々は、新しい単一モダリティの視線(ViTGaze)を導入した。
従来の方法とは対照的に、ViTGazeは強力なエンコーダ(パラムは1%未満)をベースとした、まったく新しい視点のフレームワークを生み出している。
私たちの主な洞察は、自己意識内の相互作用は、人間とシーン間の相互作用に移行できるということです。
この推定を利用して、4次元の相互作用エンコーダと2次元の空間誘導モジュールからなる枠組みを定式化し、自己注意マップから人間とシーンの相互作用情報を抽出する。
さらに,本研究は,自己指導型事前学習によるViTが相関情報を抽出する能力を高めていることを明らかにした。
提案手法の性能を実証するために, 多数の実験が実施されている。
提案手法は,AUCの3.4%改善,APの5.1%改善,およびパラメータ数が59%少ないマルチモーダリティ手法に対して非常に同等な性能を示す。
関連論文リスト
- ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions [4.554319452683839]
Vision Transformer (ViT) はコンピュータビジョンにおいて大きな成功を収めているが、密集した予測タスクではうまく機能しない。
コンボリューショナル・マルチスケール機能を有するVTバックボーンであるViT-CoMerについて述べる。
階層的特徴をまたいだマルチスケールの融合を行う,シンプルで効率的なCNN-Transformer双方向核融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:59:41Z) - S^2Former-OR: Single-Stage Bimodal Transformer for Scene Graph
Generation in OR [52.964721233679406]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に、ポーズ推定とオブジェクト検出を伴う中間プロセスに依存するセマンティックシーングラフを生成する多段階学習に依存してきた。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGの単一段バイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection [66.72992463712299]
Vision Transformers (ViT) は、大規模なVisionとLanguage Pre-trainingモデルで人気が高まっている。
これまでの研究では、ViTsの有効性が実証されているが、長い視覚的シーケンスによって引き起こされる計算の非効率性に苦慮している。
TRIPSを導入し、視覚バックボーン内のテキスト誘導パッチ選択層を用いて視覚列を縮小する。
実験の結果, TRIPSは40%の高速化を実現し, 下流タスクの競争力や優れた性能を維持していることがわかった。
論文 参考訳(メタデータ) (2024-01-11T14:31:30Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multi-modal Facial Affective Analysis based on Masked Autoencoder [7.17338843593134]
CVPR 2023: ABAW5 competition: Affective Behavior Analysis in-the-wild について紹介する。
まず,大規模顔画像データセット上で事前学習したMasked Autoencoder(MAE)モデルの視覚情報を利用する。
ABAW5では,平均F1スコアが55.49%,EXPRトラックが41.21%であった。
論文 参考訳(メタデータ) (2023-03-20T03:58:03Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Multimodal Vision Transformers with Forced Attention for Behavior
Analysis [0.0]
本稿では,強制注意(FAt)変換を導入し,入力エンコーディングや追加入力の利用に改良されたバックボーンを付加した。
FAt変換器は、パーソナリティ認識とボディランゲージ認識の2つの下流タスクに適用される。
Udiva v0.5, First Impressions v2, MPII Group Interaction データセットの最先端結果を得た。
論文 参考訳(メタデータ) (2022-12-07T21:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。