論文の概要: Vision transformer-based multi-camera multi-object tracking framework for dairy cow monitoring
- arxiv url: http://arxiv.org/abs/2508.01752v1
- Date: Sun, 03 Aug 2025 13:36:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.048177
- Title: Vision transformer-based multi-camera multi-object tracking framework for dairy cow monitoring
- Title(参考訳): ビジョントランスを用いた乳牛モニタリングのためのマルチカメラ多対象追跡フレームワーク
- Authors: Kumail Abbas, Zeeshan Afzal, Aqeel Raza, Taha Mansouri, Andrew W. Dowsey, Chaidate Inchaisri, Ali Alameer,
- Abstract要約: 本研究は,屋内飼育のホルスタイン・フリーズ産乳牛を対象とした,独自のマルチカメラリアルタイム追跡システムを開発した。
この技術は最先端のコンピュータビジョン技術を使っており、たとえばインスタンスのセグメンテーションや追跡アルゴリズムを使って牛の活動をシームレスに正確にモニタする。
- 参考スコア(独自算出の注目度): 0.06282171844772422
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Activity and behaviour correlate with dairy cow health and welfare, making continual and accurate monitoring crucial for disease identification and farm productivity. Manual observation and frequent assessments are laborious and inconsistent for activity monitoring. In this study, we developed a unique multi-camera, real-time tracking system for indoor-housed Holstein Friesian dairy cows. This technology uses cutting-edge computer vision techniques, including instance segmentation and tracking algorithms to monitor cow activity seamlessly and accurately. An integrated top-down barn panorama was created by geometrically aligning six camera feeds using homographic transformations. The detection phase used a refined YOLO11-m model trained on an overhead cow dataset, obtaining high accuracy (mAP\@0.50 = 0.97, F1 = 0.95). SAMURAI, an upgraded Segment Anything Model 2.1, generated pixel-precise cow masks for instance segmentation utilizing zero-shot learning and motion-aware memory. Even with occlusion and fluctuating posture, a motion-aware Linear Kalman filter and IoU-based data association reliably identified cows over time for object tracking. The proposed system significantly outperformed Deep SORT Realtime. Multi-Object Tracking Accuracy (MOTA) was 98.7% and 99.3% in two benchmark video sequences, with IDF1 scores above 99% and near-zero identity switches. This unified multi-camera system can track dairy cows in complex interior surroundings in real time, according to our data. The system reduces redundant detections across overlapping cameras, maintains continuity as cows move between viewpoints, with the aim of improving early sickness prediction through activity quantification and behavioural classification.
- Abstract(参考訳): 活動と行動は乳牛の健康と福祉と相関し、病気の特定と農家の生産性を継続的に正確に監視する。
手動による観察と頻繁な評価は、活動監視には不整合である。
本研究では,屋内で飼育したホルスタイン・フリーズ産の乳牛を対象とした,独自のマルチカメラリアルタイム追跡システムを開発した。
この技術は最先端のコンピュータビジョン技術を使っており、たとえばインスタンスのセグメンテーションや追跡アルゴリズムを使って牛の活動をシームレスに正確にモニタする。
6つのカメラフィードをホモグラフィック変換を用いて幾何学的に整列することで、トップダウンのバーンパノラマを統合した。
検出フェーズでは、頭上牛のデータセットで訓練された改良されたYOLO11-mモデルを使用して、高い精度(mAP\@0.50 = 0.97, F1 = 0.95)を得た。
Segment Anything Model 2.1のアップグレード版であるSamuraiは、ゼロショット学習とモーション認識メモリを利用して、例えばセグメンテーション用のピクセル精度の牛用マスクを作成した。
咬合やゆらぎのある姿勢であっても、動きを意識したリニアカルマンフィルターとIoUベースのデータアソシエーションは、物体追跡に時間をかけて、牛を確実に特定する。
提案方式は,Deep SORTリアルタイムよりも優れていた。
マルチオブジェクト追跡精度 (MOTA) は2つのベンチマークビデオシーケンスで98.7%と99.3%であり、IDF1は99%以上のスコアとほぼゼロのアイデンティティスイッチであった。
データによると、この統合されたマルチカメラシステムは、複雑な内部環境の乳牛をリアルタイムで追跡できる。
このシステムは、重複するカメラ間の冗長な検出を減らし、牛が視点の間を移動するにつれて継続性を維持し、活動量化と行動分類を通じて早期の病気予測を改善することを目的としている。
関連論文リスト
- A multi-head deep fusion model for recognition of cattle foraging events using sound and movement signals [0.2450783418670958]
この研究は、音響信号と慣性信号の融合に基づくディープニューラルネットワークを導入する。
このモデルの主な利点は、それぞれから独立して特徴の自動抽出による信号の組み合わせである。
論文 参考訳(メタデータ) (2025-05-15T11:55:16Z) - Consistent multi-animal pose estimation in cattle using dynamic Kalman filter based tracking [0.0]
KeySORTは、トラックレットをバウンディングボックスフリーで構築するための適応カルマンフィルタであり、検出されたキーポイントの時間的一貫性を著しく向上する。
実験結果から,提案アルゴリズムは,精度の高い真理キーポイントの最大80%を検出できることがわかった。
論文 参考訳(メタデータ) (2025-03-13T15:15:54Z) - Holstein-Friesian Re-Identification using Multiple Cameras and Self-Supervision on a Working Farm [2.9391768712283772]
複数のカメラで撮影されたMultiCamCows2024は、ホルシュタイン・フリース種牛の生体認証のための大規模画像データセットである。
データセットは、90頭の牛の101,329枚の画像と、基盤となるCCTVの映像で構成されている。
本研究では,データセットから画像の識別精度を96%以上上回る性能を報告し,学習中の複数のカメラからのデータを組み合わせることで,自己教師付き識別が促進されることを示した。
論文 参考訳(メタデータ) (2024-10-16T15:58:47Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose Estimation of Surgical Instruments [64.59698930334012]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Cut and Learn for Unsupervised Object Detection and Instance
Segmentation [65.43627672225624]
Cut-and-LeaRn(CutLER)は、教師なしオブジェクトの検出とセグメンテーションモデルをトレーニングするためのシンプルなアプローチである。
CutLERはゼロショット非監視検出器であり、11のベンチマークでAP50を2.7倍以上改善している。
論文 参考訳(メタデータ) (2023-01-26T18:57:13Z) - Livestock Monitoring with Transformer [4.298326853567677]
我々は,集団飼育豚を対象としたエンドツーエンド行動監視システムを開発し,インスタンスレベルのセグメンテーション,トラッキング,行動認識,再識別タスクを同時実施する。
本稿では, トランスフォーマーアーキテクチャを用いて, グループ豚のインスタンスレベルの埋め込みを学習する, エンドツーエンド多目的家畜監視フレームワークであるStarformerについて紹介する。
論文 参考訳(メタデータ) (2021-11-01T10:03:49Z) - Intra-Inter Camera Similarity for Unsupervised Person Re-Identification [50.85048976506701]
擬似ラベル生成のための新しいカメラ内類似性について検討する。
re-idモデルをカメラ内およびカメラ間擬似ラベルを用いて2段階訓練した。
この単純なinter-inter cameraの類似性は、複数のデータセットで驚くほど優れたパフォーマンスを生み出す。
論文 参考訳(メタデータ) (2021-03-22T08:29:04Z) - Joint Noise-Tolerant Learning and Meta Camera Shift Adaptation for
Unsupervised Person Re-Identification [60.36551512902312]
unsupervised person re-identification (re-ID) は、ラベルのないデータで識別モデルを学ぶことを目的としている。
一般的な方法としては、クラスタ化によって擬似ラベルを取得し、モデルを最適化するために使用する方法がある。
本稿では,両問題を解決するための統一フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-08T09:13:06Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Dairy Cow rumination detection: A deep learning approach [0.8312466807725921]
交配行動は、畜産の発展と収量を追跡するための重要な変数です。
現代のアタッチメントデバイスは、牛にとって侵襲的で、ストレスがあり、不快である。
本研究では,CNN(Convolution Neural Network)に基づくディープラーニングモデルを用いた革新的なモニタリング手法を提案する。
論文 参考訳(メタデータ) (2021-01-07T07:33:32Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。