論文の概要: FPI-Det: a face--phone Interaction Dataset for phone-use detection and understanding
- arxiv url: http://arxiv.org/abs/2509.09111v1
- Date: Thu, 11 Sep 2025 02:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.207348
- Title: FPI-Det: a face--phone Interaction Dataset for phone-use detection and understanding
- Title(参考訳): FPI-Det:電話利用の検出と理解のための対面音声インタラクションデータセット
- Authors: Jianqin Gao, Tianqi Wang, Yu Zhang, Yishu Zhang, Chenyuan Wang, Allan Dong, Zihao Wang,
- Abstract要約: モバイルデバイスは、安全監視、職場生産性評価、注意管理におけるビジョンシステムに新たな課題を生み出している。
FPI-Detは、職場、教育、交通、公共のシナリオにまたがって、顔と電話の同期アノテーション付き22,879枚の画像を含む。
- 参考スコア(独自算出の注目度): 20.181223336698675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread use of mobile devices has created new challenges for vision systems in safety monitoring, workplace productivity assessment, and attention management. Detecting whether a person is using a phone requires not only object recognition but also an understanding of behavioral context, which involves reasoning about the relationship between faces, hands, and devices under diverse conditions. Existing generic benchmarks do not fully capture such fine-grained human--device interactions. To address this gap, we introduce the FPI-Det, containing 22{,}879 images with synchronized annotations for faces and phones across workplace, education, transportation, and public scenarios. The dataset features extreme scale variation, frequent occlusions, and varied capture conditions. We evaluate representative YOLO and DETR detectors, providing baseline results and an analysis of performance across object sizes, occlusion levels, and environments. Source code and dataset is available at https://github.com/KvCgRv/FPI-Det.
- Abstract(参考訳): モバイルデバイスの普及により、安全監視、職場生産性評価、注意管理におけるビジョンシステムに対する新たな課題が生まれている。
スマートフォンを使用しているかどうかを検出するには、物体認識だけでなく、さまざまな条件下での顔、手、デバイス間の関係を推論する行動コンテキストの理解も必要である。
既存のジェネリックベンチマークは、そのようなきめ細かい人間-デバイス間のインタラクションを完全にキャプチャするわけではない。
このギャップに対処するために、職場、教育、交通、公共のシナリオで顔と電話の同期アノテーションを備えた22{,}879の画像を含むFPI-Detを紹介した。
データセットは、極端なスケールの変化、頻繁なオクルージョン、さまざまなキャプチャ条件を特徴としている。
代表型YOLO検出器とDETR検出器の評価を行い, 対象物の大きさ, 閉塞レベル, 環境に対する性能解析を行った。
ソースコードとデータセットはhttps://github.com/KvCgRv/FPI-Det.comで入手できる。
関連論文リスト
- Quantifying the Impact of Motion on 2D Gaze Estimation in Real-World Mobile Interactions [18.294511216241805]
本稿では,ユーザの移動度と行動がモバイル視線追跡精度に与える影響を実証的に示す。
頭部距離、頭部ポーズ、装置の向きは、正確性に影響を与える重要な要因である。
発見は、より堅牢で適応的な視線追跡システムの必要性を強調している。
論文 参考訳(メタデータ) (2025-02-14T21:44:52Z) - Video-based Pose-Estimation Data as Source for Transfer Learning in
Human Activity Recognition [71.91734471596433]
オンボディデバイスを用いたヒューマンアクティビティ認識(HAR)は、制約のない環境での特定の人間の行動を特定する。
これまでの研究は、トランスファーラーニングが、少ないデータでシナリオに対処するための良い戦略であることを実証した。
本稿では,人為的位置推定を目的としたデータセットを伝達学習の情報源として用いることを提案する。
論文 参考訳(メタデータ) (2022-12-02T18:19:36Z) - On-device modeling of user's social context and familiar places from
smartphone-embedded sensor data [7.310043452300736]
ユーザの社会的文脈とその位置をモデル化するための,新しい,教師なし,軽量なアプローチを提案する。
ユーザとそのデバイス間の物理的およびサイバー的ソーシャルインタラクションに関連するデータを活用する。
日常の状況を認識するための3つの機械学習アルゴリズムの性能を示す。
論文 参考訳(メタデータ) (2022-05-18T08:32:26Z) - Egocentric Human-Object Interaction Detection Exploiting Synthetic Data [19.220651860718892]
産業的文脈において,エゴセントリックなヒューマンオブジェクトインタラクション(EHOI)を検出することの問題点を考察する。
EHOI検出に自動的にラベル付けされたFPV画像を生成するためのパイプラインとツールを提案する。
論文 参考訳(メタデータ) (2022-04-14T15:59:15Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - A Computer Vision System to Help Prevent the Transmission of COVID-19 [79.62140902232628]
新型コロナウイルスのパンデミックは世界中の日常生活のあらゆる領域に影響を与える。
保健機関は、ソーシャルディスタンス、フェイスマスクを着用し、触れる顔を避けることをアドバイスします。
我々は、新型コロナウイルスの感染を防ぐためのディープラーニングベースのコンピュータビジョンシステムを開発した。
論文 参考訳(メタデータ) (2021-03-16T00:00:04Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - GID-Net: Detecting Human-Object Interaction with Global and Instance
Dependency [67.95192190179975]
GIDブロックと呼ばれる2段階の訓練可能な推論機構を導入する。
GID-Netは、ヒューマンブランチ、オブジェクトブランチ、インタラクションブランチで構成される、人間とオブジェクトのインタラクション検出フレームワークである。
我々は,提案したGID-Netを,V-COCOとHICO-DETを含む2つの公開ベンチマーク上で既存の最先端手法と比較した。
論文 参考訳(メタデータ) (2020-03-11T11:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。