論文の概要: GOO: A Dataset for Gaze Object Prediction in Retail Environments
- arxiv url: http://arxiv.org/abs/2105.10793v1
- Date: Sat, 22 May 2021 18:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 12:33:23.699522
- Title: GOO: A Dataset for Gaze Object Prediction in Retail Environments
- Title(参考訳): GOO:小売環境における目標予測のためのデータセット
- Authors: Henri Tomas, Marcus Reyes, Raimarc Dionido, Mark Ty, Jonric Mirando,
Joel Casimiro, Rowel Atienza, Richard Guinto
- Abstract要約: 我々は、視線オブジェクト予測と呼ばれる新しいタスクを提示する。
ゴールは、人の視線付きオブジェクトのバウンディングボックスを予測することである。
このタスクで視線ネットワークをトレーニングし、評価するために、Gaze On Objectsデータセットを提示する。
- 参考スコア(独自算出の注目度): 11.280648029091537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the most fundamental and information-laden actions humans do is to
look at objects. However, a survey of current works reveals that existing
gaze-related datasets annotate only the pixel being looked at, and not the
boundaries of a specific object of interest. This lack of object annotation
presents an opportunity for further advancing gaze estimation research. To this
end, we present a challenging new task called gaze object prediction, where the
goal is to predict a bounding box for a person's gazed-at object. To train and
evaluate gaze networks on this task, we present the Gaze On Objects (GOO)
dataset. GOO is composed of a large set of synthetic images (GOO Synth)
supplemented by a smaller subset of real images (GOO-Real) of people looking at
objects in a retail environment. Our work establishes extensive baselines on
GOO by re-implementing and evaluating selected state-of-the art models on the
task of gaze following and domain adaptation. Code is available on github.
- Abstract(参考訳): 人間が行う最も基本的な情報提供行動の1つは、物体を見ることである。
しかし、現在の研究の調査によると、既存の視線関連データセットは、特定の対象の境界ではなく、見ているピクセルのみに注釈を付ける。
このオブジェクトアノテーションの欠如は、視線推定研究をさらに前進させる機会を与える。
そこで本研究では,視線物体予測と呼ばれる課題を提示し,視線物体のバウンディングボックスの予測を目標とする。
このタスクで視線ネットワークをトレーニングし、評価するために、Gaze On Objects (GOO)データセットを示す。
GOOは、小売環境でオブジェクトを見ている人々の実際の画像(GOO-Real)の小さなサブセットによって補完される、大規模な合成画像(GOO Synth)で構成されている。
本研究は,GOOに対する幅広いベースラインを確立し,選択された最先端技術モデルの再実装と評価を行う。
コードはgithubで入手できる。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - Boosting Gaze Object Prediction via Pixel-level Supervision from Vision Foundation Model [19.800353299691277]
本稿では,人間の視線行動によって捉えた被写体に対応する画素レベルのマスクを推定する,より困難な視線オブジェクトセグメンテーション(GOS)タスクを提案する。
そこで本研究では,実環境におけるモデルの推論効率と柔軟性を確保するために,シーン特徴から頭部特徴を自動的に取得することを提案する。
論文 参考訳(メタデータ) (2024-08-02T06:32:45Z) - OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction [0.2796197251957245]
本稿では,OAT(Object-level Attention Transformer)を紹介する。
OATは人間のスキャンパスを予測し、散らかった邪魔者のシーンで対象物を検索する。
我々は、Amazonの書籍カバーデータセットと、収集したビジュアル検索のための新しいデータセットに基づいて、OATを評価した。
論文 参考訳(メタデータ) (2024-07-18T09:33:17Z) - TransGOP: Transformer-Based Gaze Object Prediction [27.178785186892203]
本稿では、視線オブジェクト予測の分野にトランスフォーマーを導入する。
本手法はTransGOPと呼ばれるエンドツーエンドのTransformerベースの視線オブジェクト予測手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T07:17:10Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - Object Detection in Aerial Images with Uncertainty-Aware Graph Network [61.02591506040606]
本稿では,ノードとエッジがオブジェクトによって表現される構造化グラフを用いた,新しい不確実性を考慮したオブジェクト検出フレームワークを提案する。
我々は我々のモデルをオブジェクトDETection(UAGDet)のための不確実性対応グラフネットワークと呼ぶ。
論文 参考訳(メタデータ) (2022-08-23T07:29:03Z) - Automatic dataset generation for specific object detection [6.346581421948067]
本研究では,オブジェクトの詳細な特徴を,無関係な情報を得ることなく保存することができるオブジェクト・イン・シーン・イメージの合成手法を提案する。
その結果,合成画像では,物体の境界が背景とよく一致していることがわかった。
論文 参考訳(メタデータ) (2022-07-16T07:44:33Z) - GaTector: A Unified Framework for Gaze Object Prediction [11.456242421204298]
我々は、視線オブジェクト予測問題に統一的に取り組むために、GaTectorという新しいフレームワークを構築した。
入力とタスクの特異性をよりよく考慮するために、GaTectorは共有バックボーンの前に2つの入力固有のブロックを導入し、共有バックボーン後に3つのタスク固有のブロックを導入している。
最後に、重なり合う領域を共有できない場合でも、ボックス間の差を明らかにすることのできる、新しいwUoCメトリックを提案する。
論文 参考訳(メタデータ) (2021-12-07T07:50:03Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Personal Fixations-Based Object Segmentation with Object Localization
and Boundary Preservation [60.41628937597989]
我々はPFOS(Personal Fixations-based Object)に着目し,過去の研究の課題に対処する。
視線オブジェクトをセグメント化するオブジェクトローカリゼーションと境界保存(OLBP)に基づく新しいネットワークを提案する。
OLBPは複数のタイプの深い監督の混合されたボトムアップおよびトップダウンの方法で整理されます。
論文 参考訳(メタデータ) (2021-01-22T09:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。