論文の概要: Human Attention Detection Using AM-FM Representations
- arxiv url: http://arxiv.org/abs/2203.07093v1
- Date: Wed, 9 Mar 2022 00:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-20 23:13:11.440819
- Title: Human Attention Detection Using AM-FM Representations
- Title(参考訳): AM-FM表現を用いた人間の注意検出
- Authors: Wenjing Shi
- Abstract要約: 論文では、(i)顔の検出、(ii)頭部の背面、(iii)頭部の顔と背面の関節検出、(iv)頭部が左か右かのどちらかについて位相ベースの解を探索する。
提案手法は,Amplitude Modulation- Frequency Modulation (AM-FM) モデルを用いた簡易かつ堅牢な手法の開発に基づいている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human activity detection from digital videos presents many challenges to the
computer vision and image processing communities. Recently, many methods have
been developed to detect human activities with varying degree of success. Yet,
the general human activity detection problem remains very challenging,
especially when the methods need to work 'in the wild' (e.g., without having
precise control over the imaging geometry). The thesis explores phase-based
solutions for (i) detecting faces, (ii) back of the heads, (iii) joint
detection of faces and back of the heads, and (iv) whether the head is looking
to the left or the right, using standard video cameras without any control on
the imaging geometry. The proposed phase-based approach is based on the
development of simple and robust methods that rely on the use of Amplitude
Modulation- Frequency Modulation (AM-FM) models. The approach is validated
using video frames extracted from the Advancing Out-of-school Learning in
Mathematics and Engineering (AOLME) project. The dataset consisted of 13,265
images from ten students looking at the camera, and 6,122 images from five
students looking away from the camera. For the students facing the camera, the
method was able to correctly classify 97.1% of them looking to the left and
95.9% of them looking to the right. For the students facing the back of the
camera, the method was able to correctly classify 87.6% of them looking to the
left and 93.3% of them looking to the right. The results indicate that AM-FM
based methods hold great promise for analyzing human activity videos.
- Abstract(参考訳): デジタルビデオからの人間の活動検出は、コンピュータビジョンと画像処理コミュニティに多くの課題をもたらす。
近年,様々な成功度で人的活動を検出する手法が開発されている。
しかし、一般的な人間の活動検出問題は、特に手法が「野生で」働く必要がある場合(例えば、画像幾何学を正確に制御することなく)、非常に難しいままである。
論文は位相に基づく解法を探求する
(i)顔を検出する
(二)後頭部
(iii)頭部の前後の関節検出、及び
(4)画像形状を制御せずに、標準的なビデオカメラを用いて、頭部が左か右かを向いているか。
位相に基づく手法は、振幅変調周波数変調(AM-FM)モデルを利用する単純で堅牢な手法の開発に基づいている。
この手法は,AOLME(Advancing Out-of-school Learning in Mathematics and Engineering)プロジェクトから抽出したビデオフレームを用いて検証される。
データセットは、カメラを見ている10人の学生13,265枚の画像と、カメラから目をそらしている5人の学生6,122枚の画像で構成された。
カメラに面した学生は、その97.1%が左を向いており、95.9%が右を向いていると正しく分類できた。
カメラの背面を向いている学生は、その87.6%が左を向いており、93.3%が右を向いていると正しく分類できた。
その結果,AM-FMに基づく手法は人間の活動映像を解析する上で非常に有望であることが示唆された。
関連論文リスト
- Empowering Visually Impaired Individuals: A Novel Use of Apple Live
Photos and Android Motion Photos [3.66237529322911]
われわれは、Apple Live PhotosとAndroid Motion Photosの技術の使用を提唱している。
以上の結果から,Live PhotosとMotion Photosは,共通の視覚支援タスクにおいて,単フレーム画像よりも優れていた。
論文 参考訳(メタデータ) (2023-09-14T20:46:35Z) - HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - FACE-AUDITOR: Data Auditing in Facial Recognition Systems [24.082527732931677]
顔画像を扱うスケーラビリティと能力のために、ショットベースの顔認識システムが注目されている。
顔画像の誤使用を防止するために、簡単なアプローチとして、生の顔画像を共有する前に修正する方法がある。
そこで本研究では,FACE-AUDITORの完全ツールキットを提案する。このツールキットは,少数ショットベースの顔認識モデルに問い合わせ,ユーザの顔画像のいずれかがモデルのトレーニングに使用されているかどうかを判断する。
論文 参考訳(メタデータ) (2023-04-05T23:03:54Z) - InMyFace: Inertial and Mechanomyography-Based Sensor Fusion for Wearable
Facial Activity Recognition [7.421780713537146]
本研究は、ウェアラブル慣性センサ、平面圧センサ、音響メカノミノグラフィー(筋肉音)の融合に基づく代替ソリューションを提案する。
顔の表情に関連する顔の筋活動を監視するために、センサーをスポーツキャップに入れた。
その結果は、最先端の非カメラベースのソリューションと競合する。
論文 参考訳(メタデータ) (2023-02-08T12:49:02Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - My View is the Best View: Procedure Learning from Egocentric Videos [31.385646424154732]
既存のアプローチでは、手順を学ぶために第三者のビデオが一般的である。
我々は、ファーストパーソン(エゴセントリック)のウェアラブルカメラから得られたビデオが、そのアクションの邪魔にならない明確なビューを提供するのを観察する。
本稿では,プロシージャ学習のための自己教師型Cor corresponding and Cutフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-22T05:28:11Z) - Leveraging Real Talking Faces via Self-Supervision for Robust Forgery
Detection [112.96004727646115]
本研究では,実話を用いた顔操作映像の検出手法を開発した。
本手法は, クロスマニピュレーションの一般化とロバストネス実験における最先端性能を実現する。
以上の結果から、より堅牢な顔偽造検知器の開発には、自然ビデオと未表示ビデオの活用が有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2022-01-18T17:14:54Z) - Towards unconstrained joint hand-object reconstruction from RGB videos [81.97694449736414]
ハンドオブジェクト操作の再構築は、ロボット工学と人間のデモから学ぶ大きな可能性を秘めている。
まず,手動物体の相互作用をシームレスに処理できる学習不要な手動物体再構成手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T12:26:34Z) - Pupil Center Detection Approaches: A comparative analysis [0.0]
方法は円ホフ変換、楕円フィッティング、ダウグマンの積分微分作用素、放射対称性変換に基づいている。
精度と平均ロバスト性は94%以上であった。
論文 参考訳(メタデータ) (2020-06-19T14:19:07Z) - Self-Supervised Human Depth Estimation from Monocular Videos [99.39414134919117]
人間の深度を推定する従来の方法は、しばしば地上の真実の深度データを用いた教師あり訓練を必要とする。
本稿では,YouTubeビデオの奥行きを知ることなく,自己指導型手法を提案する。
実験により,本手法はより一般化され,野生のデータに対してより優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-05-07T09:45:11Z) - Investigating the Impact of Inclusion in Face Recognition Training Data
on Individual Face Identification [93.5538147928669]
最新のオープンソースの顔認識システムであるArcFaceを、100万枚以上の散らばった画像を用いた大規模な顔識別実験で監査する。
モデルのトレーニングデータには79.71%、存在しない人には75.73%のランク1顔認証精度がある。
論文 参考訳(メタデータ) (2020-01-09T15:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。