論文の概要: Real-Time Human Detection for Aerial Captured Video Sequences via Deep Models
- arxiv url: http://arxiv.org/abs/2601.00391v1
- Date: Thu, 01 Jan 2026 17:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.420036
- Title: Real-Time Human Detection for Aerial Captured Video Sequences via Deep Models
- Title(参考訳): 深部モデルによる空中撮影映像のリアルタイム人体検出
- Authors: Nouar AlDahoul, Aznul Qalid Md Sabri, Ali Mohammed Mansoor,
- Abstract要約: 光学的流れと3つの異なる深部モデルを組み合わせた自動特徴学習法を提案する。
モデルは、公開され、非常に困難なUCF-ARG航空データセット上で訓練され、テストされる。
実験の結果,提案手法は人体検出作業に有効であることが確認された。
- 参考スコア(独自算出の注目度): 1.4656201740804355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human detection in videos plays an important role in various real-life applications. Most traditional approaches depend on utilizing handcrafted features, which are problem-dependent and optimal for specific tasks. Moreover, they are highly susceptible to dynamical events such as illumination changes, camera jitter, and variations in object sizes. On the other hand, the proposed feature learning approaches are cheaper and easier because highly abstract and discriminative features can be produced automatically without the need of expert knowledge. In this paper, we utilize automatic feature learning methods, which combine optical flow and three different deep models (i.e., supervised convolutional neural network (S-CNN), pretrained CNN feature extractor, and hierarchical extreme learning machine) for human detection in videos captured using a nonstatic camera on an aerial platform with varying altitudes. The models are trained and tested on the publicly available and highly challenging UCF-ARG aerial dataset. The comparison between these models in terms of training, testing accuracy, and learning speed is analyzed. The performance evaluation considers five human actions (digging, waving, throwing, walking, and running). Experimental results demonstrated that the proposed methods are successful for the human detection task. The pretrained CNN produces an average accuracy of 98.09%. S-CNN produces an average accuracy of 95.6% with softmax and 91.7% with Support Vector Machines (SVM). H-ELM has an average accuracy of 95.9%. Using a normal Central Processing Unit (CPU), H-ELM's training time takes 445 seconds. Learning in S-CNN takes 770 seconds with a high-performance Graphical Processing Unit (GPU).
- Abstract(参考訳): ビデオにおける人間の検出は、様々な実生活の応用において重要な役割を果たす。
ほとんどの従来のアプローチは、問題に依存し、特定のタスクに最適である手作りの機能を利用することに依存しています。
さらに、照明の変化、カメラジッタ、物体の大きさの変化など、動的事象に非常に敏感である。
一方、専門家の知識を必要とせずに、高度に抽象的で差別的な特徴を自動生成できるため、提案する特徴学習アプローチは安価かつ容易である。
本稿では,光学的流れと3種類の深部モデル(教師付き畳み込みニューラルネットワーク(S-CNN),事前訓練されたCNN特徴抽出器,階層的極端学習機)を組み合わせた自動特徴学習手法を用いて,高度の異なる空中プラットフォーム上の非静的カメラを用いて撮影した映像の人間の検出を行う。
モデルは、公開され、非常に困難なUCF-ARG航空データセット上で訓練され、テストされる。
トレーニング,テスト精度,学習速度の観点から,これらのモデルの比較を行った。
パフォーマンス評価は5つの人間の行動(手振り、手振り、投げ、歩いたり、走ったり)を考慮する。
実験の結果,提案手法は人体検出作業に有効であることが確認された。
事前訓練されたCNNの平均精度は98.09%である。
S-CNNの平均精度は95.6%でソフトマックスが91.7%、サポートベクトルマシン(SVM)が91.7%である。
H-ELMの平均精度は95.9%である。
通常の中央処理ユニット(CPU)を使用して、H-ELMのトレーニング時間は445秒である。
S-CNNでの学習は、高性能なグラフィカル処理ユニット(GPU)で770秒かかる。
関連論文リスト
- Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。
本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。
提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-17T15:36:39Z) - SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning [78.44705665291741]
本稿では,現代ビデオの自己教師型モデルの包括的評価について述べる。
ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てる。
我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
論文 参考訳(メタデータ) (2025-04-08T06:00:28Z) - Comparison of gait phase detection using traditional machine learning
and deep learning techniques [3.11526333124308]
本研究では,人間歩行のための低レベルEMGデータに基づく機械学習(ML)モデルを提案する。
その結果,従来のMLモデルでは75%,ディープラーニング(DL)モデルでは79%の精度が得られた。
論文 参考訳(メタデータ) (2024-03-07T10:05:09Z) - LoRA-like Calibration for Multimodal Deception Detection using ATSFace
Data [1.550120821358415]
本稿では,ビデオデータや誤認識のダイナミクスに固有の課題に対処する,注意を意識したニューラルネットワークを提案する。
我々は、精度を高めるマルチモーダル融合戦略を採用し、実生活の試行データセット上で92%の精度で精度を向上する。
論文 参考訳(メタデータ) (2023-09-04T06:22:25Z) - Evaluating raw waveforms with deep learning frameworks for speech
emotion recognition [0.0]
特徴抽出段階なしで生のオーディオファイルをディープニューラルネットワークに直接供給するモデルを表現する。
EMO-DB、RAVDESS、TESS、CREMA、SAVEE、TESS+RAVDESSの6つのデータセットを使用します。
提案モデルは,CNNモデルによるEMO-DBの精度90.34%,RAVDESSの精度90.42%,LSTMモデルによるTESSの精度99.48%,CNNモデルによるCREMAの精度69.72%,CNNモデルによるSAVEEの精度85.76%,の精度90.34%を実行する。
論文 参考訳(メタデータ) (2023-07-06T07:27:59Z) - Human activity recognition using deep learning approaches and single
frame cnn and convolutional lstm [0.0]
我々は、ビデオから人間の行動を認識するために、単一のフレーム畳み込みニューラルネットワーク(CNN)と畳み込み長短期記憶という、深層学習に基づく2つのアプローチを探索する。
2つのモデルは、ベンチマークアクション認識データセットであるUCF50と、実験のために作成された別のデータセットでトレーニングされ、評価された。
どちらのモデルも精度は良いが、単一のフレームCNNモデルはUCF50データセットで99.8%の精度で畳み込みLSTMモデルより優れている。
論文 参考訳(メタデータ) (2023-04-18T01:33:29Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Ensembles of Deep Neural Networks for Action Recognition in Still Images [3.7900158137749336]
本稿では,大量のラベル付き行動認識データセットの欠如に対処するための伝達学習手法を提案する。
フレームワークには8つのトレーニング済みのCNNも使用して、Stanford 40データセットのパフォーマンスを調査しています。
我々の手法の最良の設定は、スタンフォード40データセットで93.17$%の精度を達成することができる。
論文 参考訳(メタデータ) (2020-03-22T13:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。