論文の概要: Direct Video-Based Spatiotemporal Deep Learning for Cattle Lameness Detection
- arxiv url: http://arxiv.org/abs/2504.16404v3
- Date: Wed, 17 Sep 2025 07:01:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 14:28:51.679221
- Title: Direct Video-Based Spatiotemporal Deep Learning for Cattle Lameness Detection
- Title(参考訳): 直視型時空間深度学習による乳牛の乳腺度検出
- Authors: Md Fahimuzzman Sohan, Raid Alzubi, Hadeel Alzoubi, Eid Albalawi, A. H. Abdul Hafez,
- Abstract要約: 本研究では,公開されているビデオデータを用いた牛の乳腺自動検出のためのフレームワークを提案する。
2つのディープラーニングアーキテクチャをトレーニングし、評価した。
3D CNNは、精度、リコール、85%の精度でビデオレベルの分類精度を90%達成し、ConvLSD2モデルを上回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cattle lameness is a prevalent health problem in livestock farming, often resulting from hoof injuries or infections, and severely impacts animal welfare and productivity. Early and accurate detection is critical for minimizing economic losses and ensuring proper treatment. This study proposes a spatiotemporal deep learning framework for automated cattle lameness detection using publicly available video data. We curate and publicly release a balanced set of 50 online video clips featuring 42 individual cattle, recorded from multiple viewpoints in both indoor and outdoor environments. The videos were categorized into lame and non-lame classes based on visual gait characteristics and metadata descriptions. After applying data augmentation techniques to enhance generalization, two deep learning architectures were trained and evaluated: 3D Convolutional Neural Networks (3D CNN) and Convolutional Long-Short-Term Memory (ConvLSTM2D). The 3D CNN achieved a video-level classification accuracy of 90%, with a precision, recall, and F1 score of 90.9% each, outperforming the ConvLSTM2D model, which achieved 85% accuracy. Unlike conventional approaches that rely on multistage pipelines involving object detection and pose estimation, this study demonstrates the effectiveness of a direct end-to-end video classification approach. Compared with the best end-to-end prior method (C3D-ConvLSTM, 90.3%), our model achieves comparable accuracy while eliminating pose estimation pre-processing.The results indicate that deep learning models can successfully extract and learn spatio-temporal features from various video sources, enabling scalable and efficient cattle lameness detection in real-world farm settings.
- Abstract(参考訳): 牛の乳化は家畜の農業において一般的な健康問題であり、しばしば毛穴の怪我や感染症によって引き起こされ、動物の福祉と生産性に深刻な影響を及ぼす。
早期かつ正確な検出は、経済的損失を最小限に抑え、適切な治療を確保するために重要である。
本研究では,牛の乳腺自動検出のための時空間深度学習フレームワークを提案する。
室内環境と屋外環境の両方で複数の視点から記録された42頭の牛を対象とする、バランスのとれた50本のオンラインビデオクリップをキュレートし、公開する。
ビデオは視覚歩行特性とメタデータ記述に基づいて,ラームクラスと非ラームクラスに分類した。
一般化を促進するためにデータ拡張技術を適用した後、3D畳み込みニューラルネットワーク(3D CNN)と畳み込み長短記憶(ConvLSTM2D)の2つのディープラーニングアーキテクチャを訓練・評価した。
3D CNNはビデオレベルの分類精度90%を達成し、精度、リコール、F1スコアは90.9%で、ConvLSTM2Dモデルを上回る精度で85%の精度を達成した。
オブジェクト検出とポーズ推定を含む多段階パイプラインに依存する従来の手法とは異なり、本研究では、エンドツーエンドのビデオ分類手法の有効性を実証する。
C3D-ConvLSTM, 90.3%)と比較して,提案手法はポーズ推定前処理を排除しつつ,同等の精度を実現している。
関連論文リスト
- An empirical study for the early detection of Mpox from skin lesion images using pretrained CNN models leveraging XAI technique [0.471858286267785]
Mpox(ムポックス)は、Mpoxウイルスによって引き起こされる動物性疾患で、他の皮膚疾患と類似点がある。
本研究の目的は,サルポックスの早期検出における事前学習CNNモデルの有効性を評価することである。
また、Grad-CAMとXAI技術を使ってモデルの解釈可能性を向上させることを目指している。
論文 参考訳(メタデータ) (2025-07-21T17:30:08Z) - Explainable AI-Driven Detection of Human Monkeypox Using Deep Learning and Vision Transformers: A Comprehensive Analysis [0.20482269513546453]
mpoxは動物園で流行するウイルス病で、公衆衛生に重大な影響を及ぼす。
症状が麻疹や鶏痘の症状とどのように一致しているかから,早期臨床診断は困難である。
深層学習(DL)技術と併用した医用画像は, 皮膚領域を解析することにより, 疾患検出の改善を約束している。
本研究は,皮膚病変画像データセットを用いて,深層学習と視覚トランスフォーマーに基づくモデルをスクラッチからトレーニングする可能性について検討した。
論文 参考訳(メタデータ) (2025-04-03T19:45:22Z) - Excretion Detection in Pigsties Using Convolutional and Transformerbased Deep Neural Networks [0.0]
水たまりや糞のような動物の排ガスは家畜の農業において重要な排出源である。
水たまり領域を決定するための従来の研究手法では、納屋内の水たまりを手動で検出する必要がある。
本研究は,豚の排ガス検出における各種深層学習モデルの適合性について検討した最初のものである。
論文 参考訳(メタデータ) (2024-11-29T21:00:08Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [61.77272414423481]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - CVB: A Video Dataset of Cattle Visual Behaviors [13.233877352490923]
牛の行動認識のための既存のデータセットは、ほとんど小さく、明確に定義されたラベルがないか、非現実的な制御環境で収集される。
キャトル・ビジュアル・ビヘイビアス (CVB) と呼ばれる新しいデータセットを導入し、502本のビデオクリップを15秒毎に撮影し、自然の照明条件で撮影し、11種類の視覚的に知覚できる牛の行動に注釈を付ける。
論文 参考訳(メタデータ) (2023-05-26T00:44:11Z) - Human activity recognition using deep learning approaches and single
frame cnn and convolutional lstm [0.0]
我々は、ビデオから人間の行動を認識するために、単一のフレーム畳み込みニューラルネットワーク(CNN)と畳み込み長短期記憶という、深層学習に基づく2つのアプローチを探索する。
2つのモデルは、ベンチマークアクション認識データセットであるUCF50と、実験のために作成された別のデータセットでトレーニングされ、評価された。
どちらのモデルも精度は良いが、単一のフレームCNNモデルはUCF50データセットで99.8%の精度で畳み込みLSTMモデルより優れている。
論文 参考訳(メタデータ) (2023-04-18T01:33:29Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - T-LEAP: occlusion-robust pose estimation of walking cows using temporal
information [0.0]
乳牛の健康障害である乳腺は、乳牛の歩行を分析して一般的に検出される。
モデルが自動的に画像やビデオの解剖学的ランドマークをローカライズすることを学ぶので、牛の歩行はポーズ推定モデルを使用してビデオで追跡することができます。
ほとんどの動物のポーズ推定モデルは静的であり、ビデオはフレームごとに処理され、時間的情報を使用しない。
論文 参考訳(メタデータ) (2021-04-16T10:50:56Z) - A Deep Learning Study on Osteosarcoma Detection from Histological Images [6.341765152919201]
最も一般的な悪性骨腫瘍は骨肉腫である。
CNNは、外科医の作業量を著しく減らし、患者の状態の予後を良くする。
CNNは、より信頼できるパフォーマンスを達成するために、大量のデータをトレーニングする必要があります。
論文 参考訳(メタデータ) (2020-11-02T18:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。