論文の概要: Boosting Gaze Object Prediction via Pixel-level Supervision from Vision Foundation Model
- arxiv url: http://arxiv.org/abs/2408.01044v1
- Date: Fri, 2 Aug 2024 06:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 14:17:04.766829
- Title: Boosting Gaze Object Prediction via Pixel-level Supervision from Vision Foundation Model
- Title(参考訳): ビジョンファウンデーションモデルによる画素レベルスーパービジョンによる迷路物体の予測
- Authors: Yang Jin, Lei Zhang, Shi Yan, Bin Fan, Binglu Wang,
- Abstract要約: 本稿では,人間の視線行動によって捉えた被写体に対応する画素レベルのマスクを推定する,より困難な視線オブジェクトセグメンテーション(GOS)タスクを提案する。
そこで本研究では,実環境におけるモデルの推論効率と柔軟性を確保するために,シーン特徴から頭部特徴を自動的に取得することを提案する。
- 参考スコア(独自算出の注目度): 19.800353299691277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaze object prediction (GOP) aims to predict the category and location of the object that a human is looking at. Previous methods utilized box-level supervision to identify the object that a person is looking at, but struggled with semantic ambiguity, ie, a single box may contain several items since objects are close together. The Vision foundation model (VFM) has improved in object segmentation using box prompts, which can reduce confusion by more precisely locating objects, offering advantages for fine-grained prediction of gaze objects. This paper presents a more challenging gaze object segmentation (GOS) task, which involves inferring the pixel-level mask corresponding to the object captured by human gaze behavior. In particular, we propose that the pixel-level supervision provided by VFM can be integrated into gaze object prediction to mitigate semantic ambiguity. This leads to our gaze object detection and segmentation framework that enables accurate pixel-level predictions. Different from previous methods that require additional head input or ignore head features, we propose to automatically obtain head features from scene features to ensure the model's inference efficiency and flexibility in the real world. Moreover, rather than directly fuse features to predict gaze heatmap as in existing methods, which may overlook spatial location and subtle details of the object, we develop a space-to-object gaze regression method to facilitate human-object gaze interaction. Specifically, it first constructs an initial human-object spatial connection, then refines this connection by interacting with semantically clear features in the segmentation branch, ultimately predicting a gaze heatmap for precise localization. Extensive experiments on GOO-Synth and GOO-Real datasets demonstrate the effectiveness of our method.
- Abstract(参考訳): 迷路オブジェクト予測(GOP)は、人間が見ている物体のカテゴリと位置を予測することを目的としている。
従来はボックスレベルの監視手法を使用して、人が見ているオブジェクトを特定するが、意味的曖昧さに悩まされていたため、オブジェクトが近接しているため、単一のボックスにはいくつかのアイテムが含まれる可能性がある。
ビジョンファウンデーションモデル(VFM)は、ボックスプロンプトを用いてオブジェクトのセグメンテーションを改善し、より正確にオブジェクトを配置することで混乱を低減する。
本稿では,人間の視線行動によって捉えた被写体に対応する画素レベルのマスクを推定する,より困難な視線オブジェクトセグメンテーション(GOS)タスクを提案する。
特に,VFMによる画素レベルの監視を視線オブジェクトの予測に統合し,意味的曖昧さを軽減することを提案する。
これにより、正確なピクセルレベルの予測が可能な視線オブジェクトの検出とセグメンテーションフレームワークが実現される。
付加的な頭部入力や頭部特徴の無視を必要とする従来の手法とは異なり,シーン特徴から頭部特徴を自動的に取得し,実世界におけるモデルの推論効率と柔軟性を確保することを提案する。
さらに,物体の空間的位置や微妙な細部を見失うような既存の手法のように視線熱マップを予測するための特徴を直接融合させるのではなく,人と物との視線相互作用を容易にする空間対物視線回帰法を開発した。
具体的には、まず最初の人間と対象の空間接続を構築し、次にセグメンテーションブランチで意味的に明確な特徴と相互作用し、最終的に正確な位置付けのための視線熱マップを予測することによって、この接続を洗練する。
GOO-SynthおよびGOO-Realデータセットの大規模な実験により,本手法の有効性が示された。
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - TransGOP: Transformer-Based Gaze Object Prediction [27.178785186892203]
本稿では、視線オブジェクト予測の分野にトランスフォーマーを導入する。
本手法はTransGOPと呼ばれるエンドツーエンドのTransformerベースの視線オブジェクト予測手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T07:17:10Z) - PointOBB: Learning Oriented Object Detection via Single Point
Supervision [55.88982271340328]
本稿では,オブジェクト指向物体検出のための最初の単一点ベース OBB 生成法である PointOBB を提案する。
PointOBBは、オリジナルビュー、リサイズビュー、ローテーション/フリップ(rot/flp)ビューの3つのユニークなビューの協調利用を通じて動作する。
DIOR-RとDOTA-v1.0データセットの実験結果は、PointOBBが有望な性能を達成することを示す。
論文 参考訳(メタデータ) (2023-11-23T15:51:50Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - HOKEM: Human and Object Keypoint-based Extension Module for Human-Object
Interaction Detection [1.2183405753834557]
本稿では、従来の検出モデルの精度を向上させるために、人およびオブジェクトキーポイントベースの拡張モジュール(HOKEM)を使いやすい拡張モジュールとして提案する。
HOIデータセットであるV-COCOを用いた実験では、HOKEMが外観ベースモデルの精度を大きなマージンで向上させた。
論文 参考訳(メタデータ) (2023-06-25T14:40:26Z) - Sharp Eyes: A Salient Object Detector Working The Same Way as Human
Visual Characteristics [3.222802562733787]
本稿では,まず被写体をシーンから分離し,それを細分化するシャープアイネットワーク(SENet)を提案する。
提案手法は,拡張オブジェクトを用いてネットワークを誘導し,完全な予測を行う。
論文 参考訳(メタデータ) (2023-01-18T11:00:45Z) - Object Detection in Aerial Images with Uncertainty-Aware Graph Network [61.02591506040606]
本稿では,ノードとエッジがオブジェクトによって表現される構造化グラフを用いた,新しい不確実性を考慮したオブジェクト検出フレームワークを提案する。
我々は我々のモデルをオブジェクトDETection(UAGDet)のための不確実性対応グラフネットワークと呼ぶ。
論文 参考訳(メタデータ) (2022-08-23T07:29:03Z) - GaTector: A Unified Framework for Gaze Object Prediction [11.456242421204298]
我々は、視線オブジェクト予測問題に統一的に取り組むために、GaTectorという新しいフレームワークを構築した。
入力とタスクの特異性をよりよく考慮するために、GaTectorは共有バックボーンの前に2つの入力固有のブロックを導入し、共有バックボーン後に3つのタスク固有のブロックを導入している。
最後に、重なり合う領域を共有できない場合でも、ボックス間の差を明らかにすることのできる、新しいwUoCメトリックを提案する。
論文 参考訳(メタデータ) (2021-12-07T07:50:03Z) - GOO: A Dataset for Gaze Object Prediction in Retail Environments [11.280648029091537]
我々は、視線オブジェクト予測と呼ばれる新しいタスクを提示する。
ゴールは、人の視線付きオブジェクトのバウンディングボックスを予測することである。
このタスクで視線ネットワークをトレーニングし、評価するために、Gaze On Objectsデータセットを提示する。
論文 参考訳(メタデータ) (2021-05-22T18:55:35Z) - Personal Fixations-Based Object Segmentation with Object Localization
and Boundary Preservation [60.41628937597989]
我々はPFOS(Personal Fixations-based Object)に着目し,過去の研究の課題に対処する。
視線オブジェクトをセグメント化するオブジェクトローカリゼーションと境界保存(OLBP)に基づく新しいネットワークを提案する。
OLBPは複数のタイプの深い監督の混合されたボトムアップおよびトップダウンの方法で整理されます。
論文 参考訳(メタデータ) (2021-01-22T09:20:47Z) - Slender Object Detection: Diagnoses and Improvements [74.40792217534]
本稿では,超高アスペクト比,すなわちtextbfslender オブジェクトの特定タイプの検出について検討する。
古典的物体検出法では、細い物体に対してのみ評価される場合、COCO上の18.9%のmAPの劇的な低下が観察される。
論文 参考訳(メタデータ) (2020-11-17T09:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。