論文の概要: Spatiotemporal Pyramidal CNN with Depth-Wise Separable Convolution for
Eye Blinking Detection in the Wild
- arxiv url: http://arxiv.org/abs/2306.11287v1
- Date: Tue, 20 Jun 2023 04:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 15:43:49.177801
- Title: Spatiotemporal Pyramidal CNN with Depth-Wise Separable Convolution for
Eye Blinking Detection in the Wild
- Title(参考訳): 野生における視線点滅検出のための奥行き分離畳み込み型時空間CNN
- Authors: Lan Anh Thi Nguy, Bach Nguyen Gia, Thanh Tu Thi Nguyen, Kamioka Eiji,
and Tan Xuan Phan
- Abstract要約: 点眼検出は、誤認検出、運転疲労検出などにおいて重要な役割を担っている。
眼球点眼検出モデルは、様々な条件下で異なる眼球画像の解像度から効率的に学習する方法と、より高速な推論時間で検出モデルのサイズを減らす方法の2つに対処されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Eye blinking detection in the wild plays an essential role in deception
detection, driving fatigue detection, etc. Despite the fact that numerous
attempts have already been made, the majority of them have encountered
difficulties, such as the derived eye images having different resolutions as
the distance between the face and the camera changes; or the requirement of a
lightweight detection model to obtain a short inference time in order to
perform in real-time. In this research, two problems are addressed: how the eye
blinking detection model can learn efficiently from different resolutions of
eye pictures in diverse conditions; and how to reduce the size of the detection
model for faster inference time. We propose to utilize upsampling and
downsampling the input eye images to the same resolution as one potential
solution for the first problem, then find out which interpolation method can
result in the highest performance of the detection model. For the second
problem, although a recent spatiotemporal convolutional neural network used for
eye blinking detection has a strong capacity to extract both spatial and
temporal characteristics, it remains having a high number of network
parameters, leading to high inference time. Therefore, using Depth-wise
Separable Convolution rather than conventional convolution layers inside each
branch is considered in this paper as a feasible solution.
- Abstract(参考訳): 野生の目まばたき検出は、騙し検出や運転疲労検出などにおいて重要な役割を担っている。
すでに多くの試みがなされているにもかかわらず、顔とカメラの距離が変化するように解像度が異なる導眼画像や、リアルタイムに実行するために短い推論時間を得るための軽量検出モデルの要求など、多くの課題に直面している。
本研究では,眼球点眼検出モデルが様々な条件下で異なる解像度の眼球画像から効率的に学習する方法と,より高速な推測時間で検出モデルのサイズを小さくする方法の2つに対処する。
本稿では,入力された眼の画像を1つの潜在的な解法と同じ解像度にアップサンプリングおよびダウンサンプリングし,どの補間法が検出モデルの最高の性能をもたらすかを調べることを提案する。
第2の問題は、目まばたき検出に用いられる最近の時空間畳み込みニューラルネットワークは、時間的特性と時間的特性の両方を抽出できる強い能力を持つが、ネットワークパラメータが豊富であり、高い推論時間をもたらす。
そこで本論文では,各ブランチ内の従来の畳み込み層ではなく,奥行き分離畳み込みを用いた解法を提案する。
関連論文リスト
- Learning to Make Keypoints Sub-Pixel Accurate [80.55676599677824]
本研究は,2次元局所特徴の検出におけるサブピクセル精度の課題に対処する。
本稿では,検出された特徴に対するオフセットベクトルを学習することにより,サブピクセル精度で検出器を拡張できる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T12:39:56Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Learning to search for and detect objects in foveal images using deep
learning [3.655021726150368]
本研究では,画像中のクラスを探索する人間の客観的な注意をエミュレートする固定予測モデルを用いる。
そして、各固定点のフェーブされた画像を分類して、シーンにターゲットが存在するか否かを判定する。
本稿では,2つのタスク間の知識伝達を可能とし,修正予測と検出を同時に行うことができる新しいデュアルタスクモデルを提案する。
論文 参考訳(メタデータ) (2023-04-12T09:50:25Z) - Scene Change Detection Using Multiscale Cascade Residual Convolutional
Neural Networks [0.0]
シーン変化検出は、デジタル画像の画素を前景と背景領域に分割する処理問題である。
本研究では,Residual Processing Moduleを統合した畳み込みニューラルネットワークを用いた新しいマルチスケールResidual Processing Moduleを提案する。
2つの異なるデータセットで実施された実験は、提案手法の全体的な有効性をサポートし、それぞれが$boldsymbol0.9622$と$boldsymbol0.9664$ over Change Detection 2014とPetrobrasROUTESデータセットの全体的な有効性を達成する。
論文 参考訳(メタデータ) (2022-12-20T16:48:51Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - dual unet:a novel siamese network for change detection with cascade
differential fusion [4.651756476458979]
本稿では,変化検出タスク,すなわちDual-UNetのための新しいSiameseニューラルネットワークを提案する。
従来のバイテンポラル画像の符号化とは対照的に,画素の空間的差分関係に着目したエンコーダ差分アテンションモジュールを設計する。
実験により、提案手法は、一般的な季節変化検出データセットにおいて、常に最も高度な手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-12T14:24:09Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Robust Data Hiding Using Inverse Gradient Attention [82.73143630466629]
データ隠蔽タスクでは、異なる耐久性を有するため、カバー画像の各ピクセルを別々に扱う必要がある。
Inverse Gradient Attention (IGA) を用いた新しい深層データ隠蔽方式を提案する。
実証的な実験により、提案モデルが2つの先行するデータセット上で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-11-21T19:08:23Z) - Multiscale Detection of Cancerous Tissue in High Resolution Slide Scans [0.0]
高分解能スライドスキャンにおけるマルチスケール腫瘍(キメラ細胞)検出アルゴリズムを提案する。
提案手法では,CNNの異なる層における有効受容場を改良し,幅広いスケールの物体を1つの前方通過で検出する。
論文 参考訳(メタデータ) (2020-10-01T18:56:46Z) - Real Time Multi-Class Object Detection and Recognition Using Vision
Augmentation Algorithm [0.0]
学習課題における畳み込みレベルが異なるマルチスケール特徴を抽出するために,アップサンプリングとスキップ接続を用いた新しいリアルタイム検出アルゴリズムを提案する。
モデルの検出精度は、最先端モデルよりも高く、高速であることが示されている。
論文 参考訳(メタデータ) (2020-03-17T01:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。