論文の概要: When Language Model Guides Vision: Grounding DINO for Cattle Muzzle Detection
- arxiv url: http://arxiv.org/abs/2509.06427v1
- Date: Mon, 08 Sep 2025 08:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.015681
- Title: When Language Model Guides Vision: Grounding DINO for Cattle Muzzle Detection
- Title(参考訳): 言語モデルガイドのビジョン:牛の銃口検出のためのDINOの接地
- Authors: Rabin Dulal, Lihong Zheng, Muhammad Ashad Kabir,
- Abstract要約: グラウンドディングDINOは、タスク固有のトレーニングや注釈付きデータなしで銃口を検出する視覚言語モデルである。
我々のモデルは平均平均精度(mAP)@0.5の76.8%を達成し、注釈付きデータを必要としない有望な性能を示す。
- 参考スコア(独自算出の注目度): 0.48429188360918735
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Muzzle patterns are among the most effective biometric traits for cattle identification. Fast and accurate detection of the muzzle region as the region of interest is critical to automatic visual cattle identification.. Earlier approaches relied on manual detection, which is labor-intensive and inconsistent. Recently, automated methods using supervised models like YOLO have become popular for muzzle detection. Although effective, these methods require extensive annotated datasets and tend to be trained data-dependent, limiting their performance on new or unseen cattle. To address these limitations, this study proposes a zero-shot muzzle detection framework based on Grounding DINO, a vision-language model capable of detecting muzzles without any task-specific training or annotated data. This approach leverages natural language prompts to guide detection, enabling scalable and flexible muzzle localization across diverse breeds and environments. Our model achieves a mean Average Precision (mAP)@0.5 of 76.8\%, demonstrating promising performance without requiring annotated data. To our knowledge, this is the first research to provide a real-world, industry-oriented, and annotation-free solution for cattle muzzle detection. The framework offers a practical alternative to supervised methods, promising improved adaptability and ease of deployment in livestock monitoring applications.
- Abstract(参考訳): 銃口パターンは、牛の識別に最も効果的な生体計測特性の一つである。
興味領域としての銃口領域の迅速かつ正確な検出は、自動視覚牛の識別に重要である。
と。
以前のアプローチは、労働集約的で一貫性のない手動検出に頼っていた。
近年, YOLO などの教師付きモデルを用いた自動化手法が, 銃口検出に人気になっている。
有効ではあるが、これらの方法は広範囲な注釈付きデータセットを必要とし、訓練されたデータに依存し、新しい牛や見えない牛のパフォーマンスを制限する傾向がある。
これらの制約に対処するため,本研究では,タスク固有のトレーニングや注釈付きデータなしに銃口を検出する視覚言語モデルであるGrounding DINOをベースとしたゼロショット銃口検出フレームワークを提案する。
このアプローチは自然言語のプロンプトを利用して検出をガイドし、多様な品種や環境にまたがるスケーラブルで柔軟な銃口の局所化を可能にする。
本モデルは平均精度76.8 %のmAP@0.5を達成し,アノテートデータを必要としない有望な性能を示す。
我々の知る限り、これは牛の銃口検出のための現実世界、産業指向、および注釈なしソリューションを提供する最初の研究である。
このフレームワークは、監督された方法に代わる実用的な代替手段を提供し、家畜監視アプリケーションへの適応性とデプロイの容易さを約束する。
関連論文リスト
- Learning Using Privileged Information for Litter Detection [0.6390468088226494]
本研究では,特権情報とディープラーニング物体検出を組み合わせた新しい手法を提案する。
提案手法は,広く用いられている5つの物体検出モデルにまたがって評価する。
以上の結果から, この手法は, ごみ検出の実用化に有効であることが示唆された。
論文 参考訳(メタデータ) (2025-08-06T06:46:14Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [81.93945602120453]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Detect Any Deepfakes: Segment Anything Meets Face Forgery Detection and
Localization [30.317619885984005]
本稿では,視覚的セグメンテーション基盤モデル,すなわちセグメンテーションモデル(SAM)をフォージェリ検出とローカライゼーションの対面に導入する。
SAMに基づいて,Multiscale Adapterを用いたDADFフレームワークを提案する。
提案するフレームワークは、エンドツーエンドのフォージェリーローカライゼーションと検出最適化をシームレスに統合する。
論文 参考訳(メタデータ) (2023-06-29T16:25:04Z) - Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection
Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。
本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。
本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文 参考訳(メタデータ) (2023-06-06T14:23:34Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Overcoming Classifier Imbalance for Long-tail Object Detection with
Balanced Group Softmax [88.11979569564427]
本報告では, 長期分布前における最先端モデルの過小評価に関する最初の体系的解析を行う。
本稿では,グループワイドトレーニングを通じて検出フレームワーク内の分類器のバランスをとるための,新しいバランス付きグループソフトマックス(BAGS)モジュールを提案する。
非常に最近の長尾大語彙オブジェクト認識ベンチマークLVISの大規模な実験により,提案したBAGSは検出器の性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-06-18T10:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。