論文の概要: Automated Segmentation and Tracking of Group Housed Pigs Using Foundation Models
- arxiv url: http://arxiv.org/abs/2604.03426v1
- Date: Fri, 03 Apr 2026 19:50:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.571269
- Title: Automated Segmentation and Tracking of Group Housed Pigs Using Foundation Models
- Title(参考訳): 基礎モデルを用いた群飼養豚の自動分別と追跡
- Authors: Ye Bi, Bimala Acharya, David Rosero, Juan Steibel,
- Abstract要約: ファンデーションモデル(FM)は、タスク固有の教師あり学習への依存を減らすことでコンピュータビジョンを再構築している。
本研究は,群飼養豚の自動モニタリングのためのFM中心ワークフローを提案する。
- 参考スコア(独自算出の注目度): 0.23915781021862328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models (FM) are reshaping computer vision by reducing reliance on task-specific supervised learning and leveraging general visual representations learned at scale. In precision livestock farming, most pipelines remain dominated by supervised learning models that require extensive labeled data, repeated retraining, and farm-specific tuning. This study presents an FM-centered workflow for automated monitoring of group-housed nursery pigs, in which pretrained vision-language FM serve as general visual backbones and farm-specific adaptation is achieved through modular post-processing. Grounding-DINO was first applied to 1,418 annotated images to establish a baseline detection performance. While detection accuracy was high under daytime conditions, performance degraded under night-vision and heavy occlusion, motivating the integration of temporal tracking logic. Building on these detections, short-term video segmentation with Grounded-SAM2 was evaluated on 550 one-minute video clips; after post-processing, over 80% of 4,927 active tracks were fully correct, with most remaining errors arising from inaccurate masks or duplicated labels. To support identity consistency over an extended time, we further developed a long-term tracking pipeline integrating initialization, tracking, matching, mask refinement, re-identification, and post-hoc quality control. This system was evaluated on a continuous 132-minute video and maintained stable identities throughout. On 132 uniformly sampled ground-truth frames, the system achieved a mean region similarity (J) of 0.83, contour accuracy (F) of 0.92, J&F of 0.87, MOTA of 0.99, and MOTP of 90.7%, with no identity switches. Overall, this work demonstrates how FM prior knowledge can be combined with lightweight, task-specific logic to enable scalable, label-efficient, and long-duration monitoring in pig production.
- Abstract(参考訳): ファンデーションモデル(FM)は、タスク固有の教師付き学習への依存を減らし、大規模に学習した一般的な視覚表現を活用することにより、コンピュータビジョンを再構築している。
家畜の精密農業において、ほとんどのパイプラインは、広範囲なラベル付きデータ、反復的な再訓練、農場固有のチューニングを必要とする教師付き学習モデルによって支配されている。
本研究は,集団飼育型養豚の自動モニタリングのためのFM中心のワークフローについて,事前学習した視覚言語FMが一般的な視覚バックボーンとして機能し,モジュール後処理によって農作物固有の適応が達成されることを示した。
Grounding-DINOは最初に1,418個の注釈付き画像に適用され、ベースライン検出性能を確立した。
検出精度は昼間の条件下では高かったが、夜間視認と重閉塞下では性能が低下し、時間追跡ロジックの統合が動機となった。
これらの検出に基づいて、Grounded-SAM2による短期ビデオセグメンテーションを550分間のビデオクリップで評価した。
長期にわたってアイデンティティの整合性をサポートするために,初期化,追跡,マッチング,マスクの精細化,再同定,ポストホック品質制御を組み込んだ長期追跡パイプラインを開発した。
このシステムは連続した132分間のビデオで評価され、安定したアイデンティティを維持した。
132基の単体試料は0.83の平均領域類似度(J)、0.92の輪郭精度(F)、0.87のJ&F、0.99のMOTA、90.7%のMOTPを達成した。
全体として、この研究は、FM事前知識を軽量でタスク固有のロジックと組み合わせて、豚生産におけるスケーラブルでラベル効率のよい長期監視を可能にする方法を示している。
関連論文リスト
- VFM-Recon: Unlocking Cross-Domain Scene-Level Neural Reconstruction with Scale-Aligned Foundation Priors [49.39553550491549]
VFMReconは, シーンレベルの神経再構成において, スケール一貫性の要求を満たすトランスファー可能なVFMプリエントをブリッジする最初の試みである。
具体的には、まず、マルチビュースケールコヒーレンスを復元する軽量なスケールアライメントステージを導入する。
次に、トレーニング済みのVFM機能を、軽量なタスク固有アダプタを介して、ニューラルボリューム再構築パイプラインに統合する。
論文 参考訳(メタデータ) (2026-03-13T05:00:44Z) - Neural Sentinel: Unified Vision Language Model (VLM) for License Plate Recognition with Human-in-the-Loop Continual Learning [0.0]
この研究は、ライセンスプレートの認識、状態分類、車両抽出を1つの前方パスで特徴付ける新しい統一的なアプローチであるNeural Sentinelを提案する。
我々の主な貢献は、Low-Rank Adaptation (LoRA)を介して適応された微調整のPaliGemma 3Bモデルが、車両画像に関する複数の視覚的疑問に同時に答えられることを示すことである。
このシステムは、予測エラー(ECE)0.048で152msの平均推定遅延を達成し、信頼度の高い推定値を示す。
論文 参考訳(メタデータ) (2026-02-04T16:04:15Z) - D3R-Net: Dual-Domain Denoising Reconstruction Network for Robust Industrial Anomaly Detection [0.0]
非教師付き異常検出(UAD)は、現代の製造において、自動視覚検査の鍵となる要素である。
本稿では、D3R-Netについて紹介する。D3R-Netは、自己教師型「癒し」タスクと周波数認識正規化を結合したデュアルドメイン・デノベーション・コンストラクションフレームワークである。
空間平均二乗誤差に加えて、周波数領域の整合性を促進するFast Fourier Transform (FFT) 等級損失を用いる。
論文 参考訳(メタデータ) (2026-01-27T23:21:59Z) - Vision transformer-based multi-camera multi-object tracking framework for dairy cow monitoring [0.06282171844772422]
本研究は,屋内飼育のホルスタイン・フリーズ産乳牛を対象とした,独自のマルチカメラリアルタイム追跡システムを開発した。
この技術は最先端のコンピュータビジョン技術を使っており、たとえばインスタンスのセグメンテーションや追跡アルゴリズムを使って牛の活動をシームレスに正確にモニタする。
論文 参考訳(メタデータ) (2025-08-03T13:36:40Z) - Learning to Track Any Points from Human Motion [55.831218129679144]
点追跡のための擬似ラベル付きトレーニングデータを生成する自動パイプラインを提案する。
AnthroTAPでトレーニングされた点追跡モデルは、TAP-Vidベンチマークで注釈付き最先端性能を達成する。
論文 参考訳(メタデータ) (2025-07-08T17:59:58Z) - Foundation Models for Structural Health Monitoring [14.36493796970864]
本稿では,トランスフォーマーニューラルネットワークをMasked Auto-Encoderアーキテクチャを用いて,構造的健康モニタリングのための基礎モデルとして初めて利用することを提案する。
自己教師付き事前学習を通じて、複数の大規模データセットから一般化可能な表現を学習する能力を実証する。
本研究は,3つの運用用インダクトのデータを用いた基礎モデルの有効性を示す。
論文 参考訳(メタデータ) (2024-04-03T13:32:44Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。