論文の概要: GaTector: A Unified Framework for Gaze Object Prediction
- arxiv url: http://arxiv.org/abs/2112.03549v1
- Date: Tue, 7 Dec 2021 07:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 14:48:23.404230
- Title: GaTector: A Unified Framework for Gaze Object Prediction
- Title(参考訳): GaTector: Gazeオブジェクト予測のための統一フレームワーク
- Authors: Binglu Wang, Tao Hu, Baoshan Li, Xiaojuan Chen, Zhijie Zhang
- Abstract要約: 我々は、視線オブジェクト予測問題に統一的に取り組むために、GaTectorという新しいフレームワークを構築した。
入力とタスクの特異性をよりよく考慮するために、GaTectorは共有バックボーンの前に2つの入力固有のブロックを導入し、共有バックボーン後に3つのタスク固有のブロックを導入している。
最後に,重なり合う領域を共有できない場合でも,箱間の違いを明らかにする新しいmDAP尺度を提案する。
- 参考スコア(独自算出の注目度): 11.273098032003041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaze object prediction (GOP) is a newly proposed task that aims to discover
the objects being stared at by humans. It is of great application significance
but still lacks a unified solution framework. An intuitive solution is to
incorporate an object detection branch into an existing gaze prediction method.
However, previous gaze prediction methods usually use two different networks to
extract features from scene image and head image, which would lead to heavy
network architecture and prevent each branch from joint optimization. In this
paper, we build a novel framework named GaTector to tackle the gaze object
prediction problem in a unified way. Particularly, a specific-general-specific
(SGS) feature extractor is firstly proposed to utilize a shared backbone to
extract general features for both scene and head images. To better consider the
specificity of inputs and tasks, SGS introduces two input-specific blocks
before the shared backbone and three task-specific blocks after the shared
backbone. Specifically, a novel defocus layer is designed to generate
object-specific features for object detection task without losing information
or requiring extra computations. Moreover, the energy aggregation loss is
introduced to guide the gaze heatmap to concentrate on the stared box. In the
end, we propose a novel mDAP metric that can reveal the difference between
boxes even when they share no overlapping area. Extensive experiments on the
GOO dataset verify the superiority of our method in all three tracks, i.e.
object detection, gaze estimation, and gaze object prediction.
- Abstract(参考訳): 迷路オブジェクト予測(GOP)は、人間が見つめている物体を発見することを目的とした新しいタスクである。
これは非常に重要なアプリケーションだが、統一されたソリューションフレームワークが欠けている。
直感的な解決策は、既存の視線予測手法にオブジェクト検出分岐を組み込むことである。
しかし、従来の視線予測手法では、通常、シーンイメージとヘッドイメージから特徴を抽出するために2つの異なるネットワークを使用する。
本稿では,視線オブジェクト予測問題に統一的に取り組むために,GaTectorという新しいフレームワークを構築した。
特に、シーン画像とヘッド画像の両方の一般的な特徴を抽出するために共有バックボーンを利用するために、特定汎用特徴抽出器(SGS)が最初に提案されている。
入力とタスクの特異性を検討するため、sgsは共有バックボーンの前に2つの入力固有のブロック、共有バックボーンの後に3つのタスク固有のブロックを導入する。
特に、新しいデフォーカス層は、情報や余分な計算を必要とすることなく、オブジェクト検出タスクのオブジェクト特有の特徴を生成するように設計されている。
さらに、アイズヒートマップをスターボックスに集中させるために、エネルギー集約損失を導入する。
最後に,重なり合う領域を共有できない場合でも,箱間の違いを明らかにする新しいmDAP尺度を提案する。
GOOデータセットの大規模実験により, 対象検出, 視線推定, 視線予測の3トラックすべてにおいて, 提案手法の優位性が検証された。
関連論文リスト
- Boosting Gaze Object Prediction via Pixel-level Supervision from Vision Foundation Model [19.800353299691277]
本稿では,人間の視線行動によって捉えた被写体に対応する画素レベルのマスクを推定する,より困難な視線オブジェクトセグメンテーション(GOS)タスクを提案する。
そこで本研究では,実環境におけるモデルの推論効率と柔軟性を確保するために,シーン特徴から頭部特徴を自動的に取得することを提案する。
論文 参考訳(メタデータ) (2024-08-02T06:32:45Z) - Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Sharp Eyes: A Salient Object Detector Working The Same Way as Human
Visual Characteristics [3.222802562733787]
本稿では,まず被写体をシーンから分離し,それを細分化するシャープアイネットワーク(SENet)を提案する。
提案手法は,拡張オブジェクトを用いてネットワークを誘導し,完全な予測を行う。
論文 参考訳(メタデータ) (2023-01-18T11:00:45Z) - Instance-Aware Observer Network for Out-of-Distribution Object
Segmentation [94.73449180972239]
我々は、インスタンスワイドマスク予測を利用して、ObsNetのアプローチを拡張します。
提案手法は,3つのデータセット上の分布内オブジェクトから分布内オブジェクトを正確に分離する。
論文 参考訳(メタデータ) (2022-07-18T17:38:40Z) - Spatial Commonsense Graph for Object Localisation in Partial Scenes [36.47035776975184]
部分的なシーンにおける物体の局所化は,シーンの部分的な3次元スキャンによって物体の未知の位置を推定する新たな問題である。
提案手法は,新たなシーングラフモデルである空間コモンセンスグラフ(SCG)に基づいて,オブジェクトがノードであり,エッジが相互距離を定義する。
まず、ターゲットオブジェクトを表すノードと観測対象を表すノードの間の距離予測を行うグラフニューラルネットワークであるProximity Prediction NetworkにSCGを供給します。
論文 参考訳(メタデータ) (2022-03-10T14:13:35Z) - GOO: A Dataset for Gaze Object Prediction in Retail Environments [11.280648029091537]
我々は、視線オブジェクト予測と呼ばれる新しいタスクを提示する。
ゴールは、人の視線付きオブジェクトのバウンディングボックスを予測することである。
このタスクで視線ネットワークをトレーニングし、評価するために、Gaze On Objectsデータセットを提示する。
論文 参考訳(メタデータ) (2021-05-22T18:55:35Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Graph Attention Tracking [76.19829750144564]
汎用オブジェクト追跡のための簡易な目標認識型シームズグラフアテンションネットワークを提案する。
GOT-10k、UAV123、TB-100、LaSOTといった挑戦的なベンチマークの実験は、提案されたSiamGATが最先端のトラッカーよりも優れていることを示した。
論文 参考訳(メタデータ) (2020-11-23T04:26:45Z) - Slender Object Detection: Diagnoses and Improvements [74.40792217534]
本稿では,超高アスペクト比,すなわちtextbfslender オブジェクトの特定タイプの検出について検討する。
古典的物体検出法では、細い物体に対してのみ評価される場合、COCO上の18.9%のmAPの劇的な低下が観察される。
論文 参考訳(メタデータ) (2020-11-17T09:39:42Z) - Geometry Constrained Weakly Supervised Object Localization [55.17224813345206]
弱教師付きオブジェクトローカライゼーションのための幾何制約付きネットワークであるGC-Netを提案する。
検出器は、幾何学的形状を記述する係数の集合によって定義された物体の位置を予測する。
ジェネレータは、得られたマスクされた画像を入力として、オブジェクトとバックグラウンドの2つの補完的な分類タスクを実行する。
従来のアプローチとは対照的に、GC-Netはエンドツーエンドでトレーニングされ、後処理なしでオブジェクトの位置を予測する。
論文 参考訳(メタデータ) (2020-07-19T17:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。