論文の概要: Leveraging Multi-Modal Saliency and Fusion for Gaze Target Detection
- arxiv url: http://arxiv.org/abs/2504.19271v1
- Date: Sun, 27 Apr 2025 14:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.210093
- Title: Leveraging Multi-Modal Saliency and Fusion for Gaze Target Detection
- Title(参考訳): 注視目標検出のためのマルチモーダル・サリエンシと融合の活用
- Authors: Athul M. Mathew, Arshad Ali Khan, Thariq Khalid, Faroq AL-Tam, Riad Souissi,
- Abstract要約: 本稿では,画像から抽出した複数の情報を融合する新しいGTD法を提案する。
まず、単眼深度推定を用いて2次元画像を3次元表現に投影する。
また,画像から顔と奥行きのモダリティを抽出し,最終的に抽出したモダリティをすべて融合して視線目標を同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Gaze target detection (GTD) is the task of predicting where a person in an image is looking. This is a challenging task, as it requires the ability to understand the relationship between the person's head, body, and eyes, as well as the surrounding environment. In this paper, we propose a novel method for GTD that fuses multiple pieces of information extracted from an image. First, we project the 2D image into a 3D representation using monocular depth estimation. We then extract a depth-infused saliency module map, which highlights the most salient (\textit{attention-grabbing}) regions in image for the subject in consideration. We also extract face and depth modalities from the image, and finally fuse all the extracted modalities to identify the gaze target. We quantitatively evaluated our method, including the ablation analysis on three publicly available datasets, namely VideoAttentionTarget, GazeFollow and GOO-Real, and showed that it outperforms other state-of-the-art methods. This suggests that our method is a promising new approach for GTD.
- Abstract(参考訳): 注視目標検出(GTD)は、画像中の人物が見ている場所を予測するタスクである。
これは、人の頭、体、目の関係や周囲の環境を理解する能力を必要とするため、困難な作業である。
本稿では,画像から抽出した複数の情報を融合する新しいGTD法を提案する。
まず、単眼深度推定を用いて2次元画像を3次元表現に投影する。
次に, 被検者の画像に最も有意な領域 (\textit{attention-grabbing}) を強調した深度注入塩分モジュールマップを抽出する。
また,画像から顔と奥行きのモダリティを抽出し,最終的に抽出したモダリティをすべて融合して視線目標を同定する。
我々は,3つの公開データセット(VideoAttentionTarget, GazeFollow, GOO-Real)のアブレーション解析を含む手法を定量的に評価し,他の最先端手法よりも優れていることを示した。
これは,本手法がGTDにとって有望な新しいアプローチであることを示唆している。
関連論文リスト
- Upper-Body Pose-based Gaze Estimation for Privacy-Preserving 3D Gaze Target Detection [19.478147736434394]
既存のアプローチは、人の外見を分析することに大きく依存しており、主に視線目標を予測するために顔に焦点を当てている。
本稿では,人の上半身ポーズと利用可能な深度マップを利用して3次元視線方向を抽出する手法を提案する。
我々は、最も包括的にアクセス可能な3D視線目標検出データセット上で、最先端の成果を示す。
論文 参考訳(メタデータ) (2024-09-26T14:35:06Z) - What You See Is What You Detect: Towards better Object Densification in
3D detection [2.3436632098950456]
広く使われているフル形状のコンプリートアプローチは、特に遠く離れた物や歩行者のような小さな物に対して、エラーのアップバウンドを高くする。
従来の手法が生成した予測ポイントの11.3%しか必要としない可視部分補完法を提案する。
密表現を復元するために,目に見える前景オブジェクトに関連付けられた点集合を拡大するメッシュデフォーメーションに基づく手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T01:46:37Z) - Multimodal Across Domains Gaze Target Detection [18.41238482101682]
本稿では,3人称視点から捉えた単一画像における視線目標検出問題に対処する。
シーン内の人物が見ている場所を推測するために,マルチモーダルなディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-08-23T09:09:00Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。