論文の概要: 8-Calves Image dataset
- arxiv url: http://arxiv.org/abs/2503.13777v3
- Date: Wed, 22 Oct 2025 22:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:04.721046
- Title: 8-Calves Image dataset
- Title(参考訳): 8-Calvesイメージデータセット
- Authors: Xuyang Fang, Sion Hannuna, Neill Campbell, Edwin Simpson,
- Abstract要約: マルチアニマル検出、追跡、識別のための挑戦的なベンチマークである8-Calvesデータセットを紹介した。
バーに8匹のホルスタイン・フリーズ人の子牛の1時間のビデオが映し出され、頻繁にオクルージョン、動きのぼやけ、さまざまなポーズが収められている。
微調整されたYOLOv8検出器とByteTrackを使った半きめのパイプラインと手作業による修正により、537,000以上のバウンディングボックスと時間的アイデンティティラベルが提供される。
- 参考スコア(独自算出の注目度): 0.8233028449337972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated livestock monitoring is crucial for precision farming, but robust computer vision models are hindered by a lack of datasets reflecting real-world group challenges. We introduce the 8-Calves dataset, a challenging benchmark for multi-animal detection, tracking, and identification. It features a one-hour video of eight Holstein Friesian calves in a barn, with frequent occlusions, motion blur, and diverse poses. A semi-automated pipeline using a fine-tuned YOLOv8 detector and ByteTrack, followed by manual correction, provides over 537,000 bounding boxes with temporal identity labels. We benchmark 28 object detectors, showing near-perfect performance on a lenient IoU threshold (mAP50: 95.2-98.9%) but significant divergence on stricter metrics (mAP50:95: 56.5-66.4%), highlighting fine-grained localization challenges. Our identification benchmark across 23 models reveals a trade-off: scaling model size improves classification accuracy but compromises retrieval. Smaller architectures like ConvNextV2 Nano achieve the best balance (73.35% accuracy, 50.82% Top-1 KNN). Pre-training focused on semantic learning (e.g., BEiT) yielded superior transferability. For tracking, leading methods achieve high detection accuracy (MOTA > 0.92) but struggle with identity preservation (IDF1 $\approx$ 0.27), underscoring a key challenge in occlusion-heavy scenarios. The 8-Calves dataset bridges a gap by providing temporal richness and realistic challenges, serving as a resource for advancing agricultural vision models. The dataset and code are available at https://huggingface.co/datasets/tonyFang04/8-calves.
- Abstract(参考訳): 家畜の自動モニタリングは、精密農業には不可欠だが、堅牢なコンピュータビジョンモデルは、現実のグループの課題を反映したデータセットの欠如によって妨げられている。
マルチアニマル検出、追跡、識別のための挑戦的なベンチマークである8-Calvesデータセットを紹介した。
バーに8匹のホルスタイン・フリーズ人の子牛の1時間のビデオが映し出され、頻繁にオクルージョン、動きのぼやけ、さまざまなポーズが収められている。
細調整されたYOLOv8検出器とByteTrackを使用した半自動パイプラインと手動修正により、537,000以上の境界ボックスに時間的同一性ラベルを提供する。
我々は28個の物体検出器をベンチマークし、高いIoUしきい値(mAP50:95.2-98.9%)でほぼ完璧な性能を示すが、より厳密な測定値(mAP50:95:56.5-66.4%)では顕著なばらつきを示し、微粒なローカライゼーションの課題を強調した。
スケールモデルのサイズは分類精度を向上するが、検索を損なう。
ConvNextV2 Nanoのような小さなアーキテクチャは最高のバランス(73.35%の精度、50.82%のTop-1 KNN)を達成する。
セマンティックラーニング(例えばBEiT)に焦点を当てた事前学習は、優れた伝達性を得た。
追跡において、先行手法は高い検出精度(MOTA > 0.92)を達成するが、アイデンティティ保存(IDF1$\approx$ 0.27)に苦慮し、咬合重度のシナリオにおいて重要な課題を浮き彫りにしている。
8-Calvesデータセットは、時間的豊かさと現実的な課題を提供することによってギャップを埋め、農業ビジョンモデルを前進させるリソースとして機能する。
データセットとコードはhttps://huggingface.co/datasets/tonyFang04/8-calvesで公開されている。
関連論文リスト
- Event-Based Crossing Dataset (EBCD) [0.9961452710097684]
イベントベースの視覚は、静的フレームではなく、強度の変化をキャプチャすることで、従来のイメージセンシングに革命をもたらす。
Event-Based Crossingデータセットは、動的な屋外環境での歩行者と車両の検出に適したデータセットである。
このデータセットは、疎度と騒音抑制の異なる条件下での物体検出性能の広範囲な評価を容易にする。
論文 参考訳(メタデータ) (2025-03-21T19:20:58Z) - AG-VPReID: A Challenging Large-Scale Benchmark for Aerial-Ground Video-based Person Re-Identification [39.350429734981184]
我々は,地上ビデオに基づく人物識別(ReID)のための大規模データセット AG-VPReID を紹介する。
このデータセットは6,632人の被験者、32,321のトラックレット、960万フレーム以上をドローン(高度15-120m)、CCTV、ウェアラブルカメラで捉えている。
本稿では,3つの補完ストリームからなるエンドツーエンドフレームワーク AG-VPReID-Net を提案する。
論文 参考訳(メタデータ) (2025-03-11T07:38:01Z) - YOLO Evolution: A Comprehensive Benchmark and Architectural Review of YOLOv12, YOLO11, and Their Previous Versions [0.0]
本研究は, YOLOv3から最新のYOLOv12への包括的実験評価である。
考慮すべき課題は、さまざまなオブジェクトサイズ、多様なアスペクト比、単一クラスの小さなオブジェクトである。
分析では各YOLOバージョンの特徴的長所と短所を強調した。
論文 参考訳(メタデータ) (2024-10-31T20:45:00Z) - Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - Optimizing YOLO Architectures for Optimal Road Damage Detection and Classification: A Comparative Study from YOLOv7 to YOLOv10 [0.0]
本稿では,ディープラーニングモデルを用いた道路損傷検出のための総合ワークフローを提案する。
ハードウェアの制約を満たすため、大きな画像が収穫され、軽量モデルが利用される。
提案手法では,コーディネートアテンションレイヤを備えたカスタムYOLOv7モデルや,Tiny YOLOv7モデルなど,複数のモデルアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-10-10T22:55:12Z) - You Only Look at Once for Real-time and Generic Multi-Task [20.61477620156465]
A-YOLOMは適応的でリアルタイムで軽量なマルチタスクモデルである。
我々は,統一的で合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発した。
BDD100kデータセットで競合的な結果が得られます。
論文 参考訳(メタデータ) (2023-10-02T21:09:43Z) - OOD-CV-v2: An extended Benchmark for Robustness to Out-of-Distribution
Shifts of Individual Nuisances in Natural Images [59.51657161097337]
OOD-CV-v2は、ポーズ、形状、テクスチャ、コンテキスト、気象条件の10のオブジェクトカテゴリのアウト・オブ・ディストリビューションの例を含むベンチマークデータセットである。
この新たなデータセットに加えて、一般的なベースライン手法を用いた広範な実験にも貢献する。
論文 参考訳(メタデータ) (2023-04-17T20:39:25Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - LIGHTS: LIGHT Specularity Dataset for specular detection in Multi-view [12.612981566441908]
本研究では,新たな物理ベースレンダリングされたLIGHT Specularity(SLIGHT)データセットを提案する。
私たちのデータセットは、各シーンが複数のビューでレンダリングされる18の高品質の建築シーンで構成されています。
合計で2,603のビューがあり、1シーンあたり平均145のビューがあります。
論文 参考訳(メタデータ) (2021-01-26T13:26:49Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - SVIRO: Synthetic Vehicle Interior Rear Seat Occupancy Dataset and
Benchmark [11.101588888002045]
SVIROは10台の異なる車両の旅客室におけるシーンの合成データセットである。
限られたバリエーションに基づいて学習した際の一般化能力と信頼性について、機械学習に基づくアプローチを解析する。
論文 参考訳(メタデータ) (2020-01-10T14:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。