論文の概要: 8-Calves Image dataset
- arxiv url: http://arxiv.org/abs/2503.13777v2
- Date: Fri, 25 Apr 2025 22:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 18:43:11.253326
- Title: 8-Calves Image dataset
- Title(参考訳): 8-Calvesイメージデータセット
- Authors: Xuyang Fang, Sion Hannuna, Neill Campbell,
- Abstract要約: 8-Calvesは、時間的に一貫した環境でオブジェクトの検出とアイデンティティの保存を評価するためのベンチマークである。
このデータセットは、Holstein Friesianの8匹の子牛の1時間のビデオと、ユニークなコートパターンと900の静的フレームで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the 8-Calves dataset, a benchmark for evaluating object detection and identity preservation in occlusion-rich, temporally consistent environments. Comprising a 1-hour video (67,760 frames) of eight Holstein Friesian calves with unique coat patterns and 900 static frames, the dataset emphasizes real-world challenges like prolonged occlusions, motion blur, and pose variation. By fine-tuning 28 object detectors (YOLO variants, transformers) and evaluating 23 pretrained backbones (ResNet, ConvNextV2, ViTs), we expose critical architectural trade-offs: smaller models (e.g., ConvNextV2 Nano, 15.6M parameters) excel in efficiency and retrieval accuracy, while pure vision transformers lag in occlusion-heavy settings. The dataset's structured design-fixed camera views, natural motion, and verified identities-provides a reproducible testbed for object detection challenges (mAP50:95: 56.5-66.4%), bridging synthetic simplicity and domain-specific complexity. The dataset and benchmark code are all publicly available at https://huggingface.co/datasets/tonyFang04/8-calves. Limitations include partial labeling and detector bias, addressed in later sections.
- Abstract(参考訳): 咬合に富む時間的に整合した環境下での物体の検出とアイデンティティの保存を評価するためのベンチマークである8-Calvesデータセットを紹介した。
ユニークなコートパターンと900の静的フレームを持つホルスタイン・フリーズ製の8匹の子牛の1時間ビデオ(67,760フレーム)を合成し、このデータセットは、長いオクルージョン、動きのぼかし、ポーズのバリエーションといった現実世界の課題を強調している。
28個のオブジェクト検出器(YOLO変種、トランスフォーマー)を微調整し、23個の事前訓練されたバックボーン(ResNet、ConvNextV2、ViTs)を評価することで、より小さなモデル(例えば、ConvNextV2 Nano、15.6Mパラメータ)が効率と精度に優れ、純粋な視覚変換器はオクルージョン重な設定で遅延する、という重要なアーキテクチャ上のトレードオフを明らかにする。
データセットの構造化されたカメラビュー、自然な動き、検証されたアイデンティティーは、オブジェクト検出の課題(mAP50:95: 56.5-66.4%)に対して再現可能なテストベッドを提供する(mAP50:95: 56.5-66.4%)。
データセットとベンチマークコードは、https://huggingface.co/datasets/tonyFang04/8-calvesで公開されている。
制限には部分的なラベリングと検出器バイアスが含まれ、後続のセクションで対処される。
関連論文リスト
- Event-Based Crossing Dataset (EBCD) [0.9961452710097684]
イベントベースの視覚は、静的フレームではなく、強度の変化をキャプチャすることで、従来のイメージセンシングに革命をもたらす。
Event-Based Crossingデータセットは、動的な屋外環境での歩行者と車両の検出に適したデータセットである。
このデータセットは、疎度と騒音抑制の異なる条件下での物体検出性能の広範囲な評価を容易にする。
論文 参考訳(メタデータ) (2025-03-21T19:20:58Z) - AG-VPReID: A Challenging Large-Scale Benchmark for Aerial-Ground Video-based Person Re-Identification [39.350429734981184]
我々は,地上ビデオに基づく人物識別(ReID)のための大規模データセット AG-VPReID を紹介する。
このデータセットは6,632人の被験者、32,321のトラックレット、960万フレーム以上をドローン(高度15-120m)、CCTV、ウェアラブルカメラで捉えている。
本稿では,3つの補完ストリームからなるエンドツーエンドフレームワーク AG-VPReID-Net を提案する。
論文 参考訳(メタデータ) (2025-03-11T07:38:01Z) - YOLO Evolution: A Comprehensive Benchmark and Architectural Review of YOLOv12, YOLO11, and Their Previous Versions [0.0]
本研究は, YOLOv3から最新のYOLOv12への包括的実験評価である。
考慮すべき課題は、さまざまなオブジェクトサイズ、多様なアスペクト比、単一クラスの小さなオブジェクトである。
分析では各YOLOバージョンの特徴的長所と短所を強調した。
論文 参考訳(メタデータ) (2024-10-31T20:45:00Z) - Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - Optimizing YOLO Architectures for Optimal Road Damage Detection and Classification: A Comparative Study from YOLOv7 to YOLOv10 [0.0]
本稿では,ディープラーニングモデルを用いた道路損傷検出のための総合ワークフローを提案する。
ハードウェアの制約を満たすため、大きな画像が収穫され、軽量モデルが利用される。
提案手法では,コーディネートアテンションレイヤを備えたカスタムYOLOv7モデルや,Tiny YOLOv7モデルなど,複数のモデルアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-10-10T22:55:12Z) - You Only Look at Once for Real-time and Generic Multi-Task [20.61477620156465]
A-YOLOMは適応的でリアルタイムで軽量なマルチタスクモデルである。
我々は,統一的で合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発した。
BDD100kデータセットで競合的な結果が得られます。
論文 参考訳(メタデータ) (2023-10-02T21:09:43Z) - OOD-CV-v2: An extended Benchmark for Robustness to Out-of-Distribution
Shifts of Individual Nuisances in Natural Images [59.51657161097337]
OOD-CV-v2は、ポーズ、形状、テクスチャ、コンテキスト、気象条件の10のオブジェクトカテゴリのアウト・オブ・ディストリビューションの例を含むベンチマークデータセットである。
この新たなデータセットに加えて、一般的なベースライン手法を用いた広範な実験にも貢献する。
論文 参考訳(メタデータ) (2023-04-17T20:39:25Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - LIGHTS: LIGHT Specularity Dataset for specular detection in Multi-view [12.612981566441908]
本研究では,新たな物理ベースレンダリングされたLIGHT Specularity(SLIGHT)データセットを提案する。
私たちのデータセットは、各シーンが複数のビューでレンダリングされる18の高品質の建築シーンで構成されています。
合計で2,603のビューがあり、1シーンあたり平均145のビューがあります。
論文 参考訳(メタデータ) (2021-01-26T13:26:49Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - SVIRO: Synthetic Vehicle Interior Rear Seat Occupancy Dataset and
Benchmark [11.101588888002045]
SVIROは10台の異なる車両の旅客室におけるシーンの合成データセットである。
限られたバリエーションに基づいて学習した際の一般化能力と信頼性について、機械学習に基づくアプローチを解析する。
論文 参考訳(メタデータ) (2020-01-10T14:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。