論文の概要: The Importance of the Instantaneous Phase in Detecting Faces with
Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2208.01638v1
- Date: Wed, 3 Aug 2022 17:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 14:04:43.433151
- Title: The Importance of the Instantaneous Phase in Detecting Faces with
Convolutional Neural Networks
- Title(参考訳): 畳み込みニューラルネットワークによる顔検出における瞬時位相の重要性
- Authors: Luis Sanchez Tapia
- Abstract要約: 現在の論文では、AOLMEビデオデータセットから顔を検出する問題について考察している。
AOLMEデータセットは、制約のない教室環境で記録されたグループインタラクションの大規模なビデオコレクションで構成されている。
本論文では,AOLMEブロックを用いた顔検出アプリケーションにおいて,瞬時位相を用いた場合の影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional Neural Networks (CNN) have provided new and accurate methods
for processing digital images and videos. Yet, training CNNs is extremely
demanding in terms of computational resources. Also, for specific applications,
the standard use of transfer learning also tends to require far more resources
than what may be needed. Furthermore, the final systems tend to operate as
black boxes that are difficult to interpret. The current thesis considers the
problem of detecting faces from the AOLME video dataset. The AOLME dataset
consists of a large video collection of group interactions that are recorded in
unconstrained classroom environments. For the thesis, still image frames were
extracted at every minute from 18 24-minute videos. Then, each video frame was
divided into 9x5 blocks with 50x50 pixels each. For each of the 19440 blocks,
the percentage of face pixels was set as ground truth. Face detection was then
defined as a regression problem for determining the face pixel percentage for
each block. For testing different methods, 12 videos were used for training and
validation. The remaining 6 videos were used for testing. The thesis examines
the impact of using the instantaneous phase for the AOLME block-based face
detection application. For comparison, the thesis compares the use of the
Frequency Modulation image based on the instantaneous phase, the use of the
instantaneous amplitude, and the original gray scale image. To generate the FM
and AM inputs, the thesis uses dominant component analysis that aims to
decrease the training overhead while maintaining interpretability.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnn)は、デジタル画像やビデオを処理する新しい正確な方法を提供している。
しかし、CNNの訓練は計算資源の面で非常に要求されている。
また、特定のアプリケーションでは、転送学習の標準的な使用は、必要となるものよりもはるかに多くのリソースを必要とする傾向がある。
さらに、最終的なシステムは解釈が難しいブラックボックスとして動作する傾向がある。
現在の論文では、AOLMEビデオデータセットから顔を検出する問題について考察している。
AOLMEデータセットは、制約のない教室環境で記録されるグループインタラクションの大規模なビデオコレクションで構成されている。
論文では、静止画のフレームを18分間のビデオから毎分抽出した。
その後、各ビデオフレームは、それぞれ50x50ピクセルの9x5ブロックに分割された。
19440ブロックごとに、顔のピクセルの割合は基底真理として設定された。
顔検出は、各ブロックの顔画素パーセンテージを決定するための回帰問題として定義される。
異なる方法をテストするために、12の動画がトレーニングと検証に使われた。
残りの6本はテストに使用された。
本論文は,AOLMEブロックを用いた顔検出アプリケーションにおいて,瞬時位相を用いた影響を検討するものである。
比較のために、本論文は、瞬時位相に基づく周波数変調画像の使用、瞬時振幅の使用、および元のグレースケール画像の比較を行う。
fmおよびam入力を生成するために、論文は、解釈可能性を維持しながらトレーニングオーバーヘッドを削減することを目的とした主成分分析を用いる。
関連論文リスト
- Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection [91.97935118185]
医用ビデオ病変検出のための画像間知識蒸留法を提案する。
複数フレームのコンテキストを単一のフレームに蒸留することにより、ビデオベースモデルから時間的コンテキストを利用する利点と、画像ベースモデルの推論速度を組み合わせたV2I-DETRを提案する。
V2I-DETRは、画像ベースモデルとしてリアルタイム推論速度(30FPS)を達成しつつ、従来の最先端手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-08-26T07:17:05Z) - Semi-supervised Video Semantic Segmentation Using Unreliable Pseudo Labels for PVUW2024 [12.274092278786966]
信頼できない擬似ラベルに基づく半教師付きビデオセマンティックセグメンテーション手法を採用する。
本手法では,mIoUが63.71%,67.83%,最終試験が67.83%であった。
CVPR 2024におけるワイルドチャレンジにおけるビデオ・シーン・パーシングの第1位を獲得した。
論文 参考訳(メタデータ) (2024-06-02T01:37:26Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - SiPRNet: End-to-End Learning for Single-Shot Phase Retrieval [8.820823270160695]
畳み込みニューラルネットワーク(CNN)は、様々な画像再構成タスクにおいて重要な役割を果たしている。
本稿では,1つのフーリエ強度測定から信号を取得するために,SiPRNetという新しいCNN構造を設計する。
提案手法は、シングルショットマスクレス位相検索において、他のCNNおよび従来の最適化手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-23T16:24:52Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z) - CNN-based Visual Ego-Motion Estimation for Fast MAV Maneuvers [5.721124285238146]
高速移動する単眼カメラからの画像間の相対的なポーズを予測する畳み込みニューラルネットワーク(CNN)について検討する。
本研究のネットワークは, モデルサイズが小さく, 推論速度も高い。
トレーニングやテスト用の画像は、リアルな動きのぼやけがあります。
論文 参考訳(メタデータ) (2021-01-06T01:20:29Z) - Enhanced Few-shot Learning for Intrusion Detection in Railway Video
Surveillance [16.220077781635748]
拡張モデル非依存メタラーナーは、オリジナルビデオフレームと、ビデオから抽出されたトラック領域のセグメンテッドマスクの両方を用いて訓練される。
解析結果から,拡張メタラーナーは,新たに収集したビデオフレームのサンプルをわずかに残さず,見知らぬシーンに適応できることが示唆された。
論文 参考訳(メタデータ) (2020-11-09T08:59:15Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。