論文の概要: Cattle-CLIP: A Multimodal Framework for Cattle Behaviour Recognition
- arxiv url: http://arxiv.org/abs/2510.09203v1
- Date: Fri, 10 Oct 2025 09:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.60897
- Title: Cattle-CLIP: A Multimodal Framework for Cattle Behaviour Recognition
- Title(参考訳): Cattle-CLIP: 牛の行動認識のためのマルチモーダルフレームワーク
- Authors: Huimin Liu, Jing Gao, Daria Baran, AxelX Montout, Neill W Campbell, Andrew W Dowsey,
- Abstract要約: Cattle-CLIPは、牛の行動認識のためのマルチモーダルなディープラーニングフレームワークである。
これは、時間統合モジュールを追加することで、大規模な画像言語モデルCLIPから適応される。
実験により、キャトル-CLIPは6つの行動に対して96.1%の総合的精度を達成することが示された。
- 参考スコア(独自算出の注目度): 5.45546363077543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cattle behaviour is a crucial indicator of an individual animal health, productivity and overall well-being. Video-based monitoring, combined with deep learning techniques, has become a mainstream approach in animal biometrics, and it can offer high accuracy in some behaviour recognition tasks. We present Cattle-CLIP, a multimodal deep learning framework for cattle behaviour recognition, using semantic cues to improve the performance of video-based visual feature recognition. It is adapted from the large-scale image-language model CLIP by adding a temporal integration module. To address the domain gap between web data used for the pre-trained model and real-world cattle surveillance footage, we introduce tailored data augmentation strategies and specialised text prompts. Cattle-CLIP is evaluated under both fully-supervised and few-shot learning scenarios, with a particular focus on data-scarce behaviour recognition - an important yet under-explored goal in livestock monitoring. To evaluate the proposed method, we release the CattleBehaviours6 dataset, which comprises six types of indoor behaviours: feeding, drinking, standing-self-grooming, standing-ruminating, lying-self-grooming and lying-ruminating. The dataset consists of 1905 clips collected from our John Oldacre Centre dairy farm research platform housing 200 Holstein-Friesian cows. Experiments show that Cattle-CLIP achieves 96.1% overall accuracy across six behaviours in a supervised setting, with nearly 100% recall for feeding, drinking and standing-ruminating behaviours, and demonstrates robust generalisation with limited data in few-shot scenarios, highlighting the potential of multimodal learning in agricultural and animal behaviour analysis.
- Abstract(参考訳): 牛の行動は、個々の動物の健康、生産性、そして全体的な健康を示す重要な指標である。
ビデオベースのモニタリングとディープラーニング技術が組み合わさって、動物バイオメトリックスにおける主流のアプローチとなり、いくつかの行動認識タスクにおいて高い精度を提供することができる。
牛の行動認識のためのマルチモーダル深層学習フレームワークであるCattle-CLIPについて,ビデオに基づく視覚的特徴認識の性能向上のためにセマンティックキューを用いた。
これは、時間統合モジュールを追加することで、大規模な画像言語モデルCLIPから適応される。
事前訓練されたモデルと実世界の牛の監視映像に使用されるWebデータ間のドメインギャップに対処するため,データ強化戦略と特別なテキストプロンプトを導入する。
Cattle-CLIPは、完全な教師付きと数ショットの学習シナリオの両方で評価されており、特にデータスカースな振る舞い認識に焦点を当てている。
提案手法を評価するために,食事,飲酒,スタンディング・セルフ・グルームニング,スタンディング・ラミネート,嘘・セルフ・グルームニング,レイ・ラミネートという6種類の屋内行動を含むCattleBehaviours6データセットを作成した。
このデータセットは、ジョン・オールドエーカー・センターの乳牛研究プラットフォームから集められた1905年のクリップから成っている。
実験により、キャトル-CLIPは6つの行動に対して96.1%の総合的精度を達成し、摂食、飲酒、起立行動のリコールを100%近く行い、数ショットのシナリオで限られたデータで堅牢な一般化を示し、農業や動物の行動分析におけるマルチモーダル学習の可能性を強調している。
関連論文リスト
- A Computer Vision Pipeline for Individual-Level Behavior Analysis: Benchmarking on the Edinburgh Pig Dataset [0.46297934208241753]
動物行動分析は、農業環境における動物福祉、健康状態、生産性を理解する上で重要な役割を担っている。
グループ住宅環境における動物の行動分析を自動化するために,オープンソースの最先端コンピュータビジョン技術を活用するモジュールパイプラインを提案する。
提案手法は, ゼロショット物体検出, モーション認識, セグメンテーションのための最先端モデルと, 頑健な動作認識のための視覚変換器を用いた高度な特徴抽出を組み合わせたものである。
論文 参考訳(メタデータ) (2025-09-15T15:31:12Z) - Consistent multi-animal pose estimation in cattle using dynamic Kalman filter based tracking [0.0]
KeySORTは、トラックレットをバウンディングボックスフリーで構築するための適応カルマンフィルタであり、検出されたキーポイントの時間的一貫性を著しく向上する。
実験結果から,提案アルゴリズムは,精度の高い真理キーポイントの最大80%を検出できることがわかった。
論文 参考訳(メタデータ) (2025-03-13T15:15:54Z) - Holstein-Friesian Re-Identification using Multiple Cameras and Self-Supervision on a Working Farm [2.9391768712283772]
複数のカメラで撮影されたMultiCamCows2024は、ホルシュタイン・フリース種牛の生体認証のための大規模画像データセットである。
データセットは、90頭の牛の101,329枚の画像と、基盤となるCCTVの映像で構成されている。
本研究では,データセットから画像の識別精度を96%以上上回る性能を報告し,学習中の複数のカメラからのデータを組み合わせることで,自己教師付き識別が促進されることを示した。
論文 参考訳(メタデータ) (2024-10-16T15:58:47Z) - Distillation-guided Representation Learning for Unconstrained Gait Recognition [50.0533243584942]
本研究では,屋外シナリオにおける人間認証のためのGADER(GAit Detection and Recognition)フレームワークを提案する。
GADERは、歩行情報を含むフレームのみを使用する新しい歩行認識手法により識別的特徴を構築する。
室内および屋外のデータセットに一貫した改善を示すため,複数の歩行ベースライン(SoTA)について評価を行った。
論文 参考訳(メタデータ) (2023-07-27T01:53:57Z) - Occlusion-Resistant Instance Segmentation of Piglets in Farrowing Pens
Using Center Clustering Network [48.42863035798351]
本稿では,CClusnet-Inseg と呼ばれるインスタンスセグメンテーションのための新しい Center Clustering Network を提案する。
CClusnet-Insegは、各ピクセルを使ってオブジェクト中心を予測し、これらの中心をトレースし、クラスタリング結果に基づいてマスクを形成する。
6本のペンから収集した6本の動画から4600枚の画像を抽出し、その方法の訓練と検証を行った。
論文 参考訳(メタデータ) (2022-06-04T08:43:30Z) - Persistent Animal Identification Leveraging Non-Visual Markers [71.14999745312626]
乱雑なホームケージ環境下で各マウスにユニークな識別子を時間をかけて発見し提供することを目的としている。
これは、(i)各マウスの視覚的特徴の区別の欠如、(ii)一定の閉塞を伴うシーンの密閉性のため、非常に難しい問題である。
本手法は, この動物識別問題に対して77%の精度を達成し, 動物が隠れているときの急激な検出を拒否することができる。
論文 参考訳(メタデータ) (2021-12-13T17:11:32Z) - TraND: Transferable Neighborhood Discovery for Unsupervised Cross-domain
Gait Recognition [77.77786072373942]
本稿では、教師なしクロスドメイン歩行認識のための領域ギャップを橋渡しするTransferable Neighborhood Discovery (TraND) フレームワークを提案する。
我々は、潜在空間におけるラベルなしサンプルの自信ある近傍を自動的に発見するために、エンドツーエンドのトレーニング可能なアプローチを設計する。
提案手法は,CASIA-BとOU-LPの2つの公開データセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-02-09T03:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。