論文の概要: Zero-Shot Wildlife Sorting Using Vision Transformers: Evaluating Clustering and Continuous Similarity Ordering
- arxiv url: http://arxiv.org/abs/2510.14596v1
- Date: Thu, 16 Oct 2025 11:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.84217
- Title: Zero-Shot Wildlife Sorting Using Vision Transformers: Evaluating Clustering and Continuous Similarity Ordering
- Title(参考訳): 視覚変換器を用いたゼロショット野生生物ソート:クラスタリングと連続的類似性順序付けの評価
- Authors: Hugo Markoff, Jevgenijs Galaktionovs,
- Abstract要約: カメラトラップは何百万もの野生生物の画像を生成するが、多くのデータセットには既存の分類器にはない種が含まれている。
本研究は、自己監督型視覚変換器を用いて、ラベルなし野生生物画像の整理のためのゼロショットアプローチを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera traps generate millions of wildlife images, yet many datasets contain species that are absent from existing classifiers. This work evaluates zero-shot approaches for organizing unlabeled wildlife imagery using self-supervised vision transformers, developed and tested within the Animal Detect platform for camera trap analysis. We compare unsupervised clustering methods (DBSCAN, GMM) across three architectures (CLIP, DINOv2, MegaDescriptor) combined with dimensionality reduction techniques (PCA, UMAP), and we demonstrate continuous 1D similarity ordering via t-SNE projection. On a 5-species test set with ground truth labels used only for evaluation, DINOv2 with UMAP and GMM achieves 88.6 percent accuracy (macro-F1 = 0.874), while 1D sorting reaches 88.2 percent coherence for mammals and birds and 95.2 percent for fish across 1,500 images. Based on these findings, we deployed continuous similarity ordering in production, enabling rapid exploratory analysis and accelerating manual annotation workflows for biodiversity monitoring.
- Abstract(参考訳): カメラトラップは何百万もの野生生物の画像を生成するが、多くのデータセットには既存の分類器にはない種が含まれている。
本研究では、カメラトラップ解析のためのアニマル・ディテクター・プラットフォーム内で開発された自己監督型視覚変換器を用いて、ラベルなし野生生物画像の整理のためのゼロショットアプローチを評価する。
我々は,3つのアーキテクチャ (CLIP, DINOv2, MegaDescriptor) における教師なしクラスタリング手法 (DBSCAN, GMM) と次元削減手法 (PCA, UMAP) を比較し,t-SNEプロジェクションによる連続1次元類似性順序付けを示す。
UMAPとGMMによるDINOv2の精度は88.6%(macro-F1 = 0.874)であり、1Dソートは哺乳類と鳥類のコヒーレンス88.2%、魚の95.2%に達する。
これらの知見に基づき,本研究では,生物多様性モニタリングのための手動アノテーションワークフローを高速化し,探索的分析を可能にする連続的類似性順序付けを本番環境に展開した。
関連論文リスト
- Hierarchical Re-Classification: Combining Animal Classification Models with Vision Transformers [0.0]
動物検出プラットフォームのための階層的再分類システムを提案する。
私たちの5段階パイプラインは、LILA BC Desert Lion Conservationデータセットのセグメントで評価されます。
ブランク」ラベルと「アニマル」ラベルから761羽の鳥検出を回収した後、96.5%の精度で動物、哺乳類、空白の456羽の鳥検出を分類した。
論文 参考訳(メタデータ) (2025-10-16T11:57:07Z) - Vision transformer-based multi-camera multi-object tracking framework for dairy cow monitoring [0.06282171844772422]
本研究は,屋内飼育のホルスタイン・フリーズ産乳牛を対象とした,独自のマルチカメラリアルタイム追跡システムを開発した。
この技術は最先端のコンピュータビジョン技術を使っており、たとえばインスタンスのセグメンテーションや追跡アルゴリズムを使って牛の活動をシームレスに正確にモニタする。
論文 参考訳(メタデータ) (2025-08-03T13:36:40Z) - CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification [65.46685389276443]
画像とテキストプロンプトをマッチングすることでゼロショット分類を行うことができる、視覚言語で事前訓練されたエンコーダモデルであるCLIPについて検討する。
次に, 共分散精製プロセス間のKL分散として精製リスクを定式化する。
画像の潜伏ベクトルの確率をモデル化するCLI-Diffと、画像の埋め込みとaの写真とのコサイン類似度をモデル化するCLI-Cosの2つのバリエーションを提案する。
論文 参考訳(メタデータ) (2025-02-25T13:09:34Z) - Multimodal Foundation Models for Zero-shot Animal Species Recognition in
Camera Trap Images [57.96659470133514]
モーションアクティベートカメラトラップは、世界中の野生生物を追跡・監視するための効率的なツールである。
教師付き学習技術は、そのような画像を分析するためにうまく展開されているが、そのような訓練には専門家のアノテーションが必要である。
コストのかかるラベル付きデータへの依存を減らすことは、人間の労働力を大幅に減らした大規模野生生物追跡ソリューションを開発する上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-02T08:32:00Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Distance Estimation and Animal Tracking for Wildlife Camera Trapping [0.0]
カメラから動物までの距離を推定する完全自動手法を提案する。
我々は、距離を推定するために最先端の相対的MDEと新しいアライメント手順を利用する。
平均絶対距離推定誤差は0.9864mで、精度90.3%、リコール63.8%である。
論文 参考訳(メタデータ) (2022-02-09T18:12:18Z) - Detecting Cattle and Elk in the Wild from Space [6.810164473908359]
衛星画像中の大きな黄体を位置決めし、数えることが生態学研究を支える重要な課題である。
画像中の動物数(カウント)を同時に推定し,その位置をピクセルレベルで(ローカライズ)予測するベースライン手法であるCowNetを提案する。
本稿では,カリフォルニア州ポイント・レーズ海浜の大規模景観における結果モデルの時間的一般化を特に検証する。
論文 参考訳(メタデータ) (2021-06-29T14:35:23Z) - Filtering Empty Camera Trap Images in Embedded Systems [0.0]
本稿では,動物認識モデルの比較研究を行い,エッジデバイス上での精度と推論遅延のトレードオフを解析する。
実験の結果、同じ画像をトレーニングに使用すると、検出器の性能が向上することがわかった。
検出問題のラベルを生成するコストが高いことを考えると、分類にラベル付けされた大量の画像が存在する場合、分類器は検出器に匹敵する結果が得られるが、半分のレイテンシを持つ。
論文 参考訳(メタデータ) (2021-04-18T13:56:22Z) - Intra-Inter Camera Similarity for Unsupervised Person Re-Identification [50.85048976506701]
擬似ラベル生成のための新しいカメラ内類似性について検討する。
re-idモデルをカメラ内およびカメラ間擬似ラベルを用いて2段階訓練した。
この単純なinter-inter cameraの類似性は、複数のデータセットで驚くほど優れたパフォーマンスを生み出す。
論文 参考訳(メタデータ) (2021-03-22T08:29:04Z) - Automatic image-based identification and biomass estimation of
invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。
我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。
分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文 参考訳(メタデータ) (2020-02-05T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。