論文の概要: TransGOP: Transformer-Based Gaze Object Prediction
- arxiv url: http://arxiv.org/abs/2402.13578v1
- Date: Wed, 21 Feb 2024 07:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:30:10.620876
- Title: TransGOP: Transformer-Based Gaze Object Prediction
- Title(参考訳): transgop:transformerベースの視線物体予測
- Authors: Binglu Wang, Chenxi Guo, Yang Jin, Haisheng Xia, Nian Liu
- Abstract要約: 本稿では、視線オブジェクト予測の分野にトランスフォーマーを導入する。
本手法はTransGOPと呼ばれるエンドツーエンドのTransformerベースの視線オブジェクト予測手法を提案する。
- 参考スコア(独自算出の注目度): 27.178785186892203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaze object prediction aims to predict the location and category of the
object that is watched by a human. Previous gaze object prediction works use
CNN-based object detectors to predict the object's location. However, we find
that Transformer-based object detectors can predict more accurate object
location for dense objects in retail scenarios. Moreover, the long-distance
modeling capability of the Transformer can help to build relationships between
the human head and the gaze object, which is important for the GOP task. To
this end, this paper introduces Transformer into the fields of gaze object
prediction and proposes an end-to-end Transformer-based gaze object prediction
method named TransGOP. Specifically, TransGOP uses an off-the-shelf
Transformer-based object detector to detect the location of objects and designs
a Transformer-based gaze autoencoder in the gaze regressor to establish
long-distance gaze relationships. Moreover, to improve gaze heatmap regression,
we propose an object-to-gaze cross-attention mechanism to let the queries of
the gaze autoencoder learn the global-memory position knowledge from the object
detector. Finally, to make the whole framework end-to-end trained, we propose a
Gaze Box loss to jointly optimize the object detector and gaze regressor by
enhancing the gaze heatmap energy in the box of the gaze object. Extensive
experiments on the GOO-Synth and GOO-Real datasets demonstrate that our
TransGOP achieves state-of-the-art performance on all tracks, i.e., object
detection, gaze estimation, and gaze object prediction. Our code will be
available at https://github.com/chenxi-Guo/TransGOP.git.
- Abstract(参考訳): gaze object predictionは、人間が見ているオブジェクトの位置とカテゴリを予測することを目的としている。
以前の視線物体予測は、cnnベースの物体検出器を使用して物体の位置を予測している。
しかし, トランスフォーマーを用いた物体検出装置は, より正確な物体位置を予測できることがわかった。
さらに、トランスフォーマーの長距離モデリング能力は、GOPタスクにおいて重要な人間の頭と視線オブジェクトの関係を構築するのに役立つ。
そこで本稿では,Transformerを視線オブジェクト予測の分野に導入し,エンドツーエンドの視線オブジェクト予測手法であるTransGOPを提案する。
具体的には、TransGOPは市販のTransformerベースのオブジェクト検出器を使用して物体の位置を検知し、Transformerベースの視線オートエンコーダを視線回帰器に設計し、長距離視線関係を確立する。
さらに,視線ヒートマップ回帰を改善するために,視線オートエンコーダの問合せが物体検出器から大域的メモリ位置知識を学習するオブジェクトツーガゼクロスアテンション機構を提案する。
最後に, フレームワーク全体をエンドツーエンドでトレーニングするために, 視線検出器と視線調整器を協調的に最適化するために, 視線対象の箱内の視線ヒートマップエネルギーを高めることにより, 視線ボックスロスを提案する。
GOO-Synth と GOO-Real のデータセットに対する大規模な実験により、我々のTransGOP が全てのトラック、すなわちオブジェクト検出、視線推定、視線オブジェクト予測の最先端性能を達成することを示した。
私たちのコードはhttps://github.com/chenxi-guo/transgop.gitで利用可能です。
関連論文リスト
- Boosting Gaze Object Prediction via Pixel-level Supervision from Vision Foundation Model [19.800353299691277]
本稿では,人間の視線行動によって捉えた被写体に対応する画素レベルのマスクを推定する,より困難な視線オブジェクトセグメンテーション(GOS)タスクを提案する。
そこで本研究では,実環境におけるモデルの推論効率と柔軟性を確保するために,シーン特徴から頭部特徴を自動的に取得することを提案する。
論文 参考訳(メタデータ) (2024-08-02T06:32:45Z) - Foreground Guidance and Multi-Layer Feature Fusion for Unsupervised
Object Discovery with Transformers [8.88037278008401]
Foreground guidance and MUlti-Layer feature fusion for unsupervised object discovery, called FORMULA。
本報告では,本手法を用いて,前景領域を特徴地図上に強調表示し,対象位置を反復的に洗練する,既設のUOD検出器を用いた前景誘導戦略を提案する。
オブジェクト検出におけるスケール変動問題を解決するため,異なるスケールでオブジェクトに応答する特徴を集約する多層機能融合モジュールを設計した。
論文 参考訳(メタデータ) (2022-10-24T09:19:09Z) - Exploring Structure-aware Transformer over Interaction Proposals for
Human-Object Interaction Detection [119.93025368028083]
我々は、新しいトランスフォーマー型ヒューマンオブジェクトインタラクション(HOI)検出器、すなわち、インタラクション提案(STIP)による構造認識トランスフォーマーを設計する。
STIPはHOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。
構造対応トランスフォーマーは、相互作用提案間の相同的意味構造を付加してバニラトランスフォーマーをアップグレードし、各相互作用提案内の人間・物体の局所的空間構造を付加し、HOIを強化する。
論文 参考訳(メタデータ) (2022-06-13T16:21:08Z) - GaTector: A Unified Framework for Gaze Object Prediction [11.456242421204298]
我々は、視線オブジェクト予測問題に統一的に取り組むために、GaTectorという新しいフレームワークを構築した。
入力とタスクの特異性をよりよく考慮するために、GaTectorは共有バックボーンの前に2つの入力固有のブロックを導入し、共有バックボーン後に3つのタスク固有のブロックを導入している。
最後に、重なり合う領域を共有できない場合でも、ボックス間の差を明らかにすることのできる、新しいwUoCメトリックを提案する。
論文 参考訳(メタデータ) (2021-12-07T07:50:03Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - BGT-Net: Bidirectional GRU Transformer Network for Scene Graph
Generation [0.15469452301122172]
シーングラフ生成(SGG)は、オブジェクトとその関係を識別することを目的としている。
画像のシーングラフ生成のための双方向GRU(BiGRU)トランスフォーマーネットワーク(BGT-Net)を提案する。
このモデルは、BiGRU層を用いたオブジェクト情報を強化するために、新しいオブジェクトオブジェクト通信を実装している。
論文 参考訳(メタデータ) (2021-09-11T19:14:40Z) - GOO: A Dataset for Gaze Object Prediction in Retail Environments [11.280648029091537]
我々は、視線オブジェクト予測と呼ばれる新しいタスクを提示する。
ゴールは、人の視線付きオブジェクトのバウンディングボックスを予測することである。
このタスクで視線ネットワークをトレーニングし、評価するために、Gaze On Objectsデータセットを提示する。
論文 参考訳(メタデータ) (2021-05-22T18:55:35Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Inverting the Pose Forecasting Pipeline with SPF2: Sequential Pointcloud
Forecasting for Sequential Pose Forecasting [106.3504366501894]
自動運転車やロボット操作システムは、オブジェクトを最初に検出して追跡することによって、将来のオブジェクトのポーズを予測することが多い。
ポーズ予測アルゴリズムは通常、オブジェクトのポーズのラベル付きシーケンスを必要とするため、このパイプラインはスケールするのに費用がかかる。
本稿では,まず3次元センサデータを予測し,予測点雲列上の物体を検知・追跡し,将来的なポーズを求めることを提案する。
これにより、センサーデータ予測タスクにラベルが不要であるため、予測のスケールが難しくなる。
論文 参考訳(メタデータ) (2020-03-18T17:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。