論文の概要: Vision Transformers for Zero-Shot Clustering of Animal Images: A Comparative Benchmarking Study
- arxiv url: http://arxiv.org/abs/2602.03894v1
- Date: Tue, 03 Feb 2026 08:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.209044
- Title: Vision Transformers for Zero-Shot Clustering of Animal Images: A Comparative Benchmarking Study
- Title(参考訳): 動物画像のゼロショットクラスタリングのための視覚変換器 : 比較ベンチマークによる検討
- Authors: Hugo Markoff, Stefan Hein Bengtson, Michael Ørsted,
- Abstract要約: 動物画像のマニュアルラベリングは、生態学研究において重要なボトルネックとなっている。
本研究では、最先端のビジョントランスフォーマー(ViT)基盤モデルが、何千もの未ラベルの動物画像を直接種レベルのクラスタに還元できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.19116784879310023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manual labeling of animal images remains a significant bottleneck in ecological research, limiting the scale and efficiency of biodiversity monitoring efforts. This study investigates whether state-of-the-art Vision Transformer (ViT) foundation models can reduce thousands of unlabeled animal images directly to species-level clusters. We present a comprehensive benchmarking framework evaluating five ViT models combined with five dimensionality reduction techniques and four clustering algorithms, two supervised and two unsupervised, across 60 species (30 mammals and 30 birds), with each test using a random subset of 200 validated images per species. We investigate when clustering succeeds at species-level, where it fails, and whether clustering within the species-level reveals ecologically meaningful patterns such as sex, age, or phenotypic variation. Our results demonstrate near-perfect species-level clustering (V-measure: 0.958) using DINOv3 embeddings with t-SNE and supervised hierarchical clustering methods. Unsupervised approaches achieve competitive performance (0.943) while requiring no prior species knowledge, rejecting only 1.14% of images as outliers requiring expert review. We further demonstrate robustness to realistic long-tailed distributions of species and show that intentional over-clustering can reliably extract intra-specific variation including age classes, sexual dimorphism, and pelage differences. We introduce an open-source benchmarking toolkit and provide recommendations for ecologists to select appropriate methods for sorting their specific taxonomic groups and data.
- Abstract(参考訳): 動物画像のマニュアルラベリングは、生物多様性監視の規模と効率を制限し、生態研究において重要なボトルネックとなっている。
本研究では、最先端のビジョントランスフォーマー(ViT)基盤モデルが、何千もの未ラベルの動物画像を直接種レベルのクラスタに還元できるかどうかを検討する。
筆者らは5つのViTモデルと5つの次元削減手法と4つのクラスタリングアルゴリズム、60種(哺乳類30種,鳥30種)にわたる2つの教師なしおよび2つの教師なしの非教師付きクラスタリングアルゴリズムを組み合わせた総合的なベンチマークフレームワークを提案する。
種レベルでのクラスタリングが成功するか、どこで失敗するか、そして種レベルでのクラスタリングが、性別、年齢、表現型変異といった生態学的に意味のあるパターンを明らかにするかどうかを検討する。
その結果, DINOv3 を t-SNE と教師付き階層クラスタリング法を用いて, ほぼ完全な種レベルのクラスタリング (V- measures: 0.958) を実証した。
教師なしのアプローチは、事前の種に関する知識を必要とせず、専門家のレビューを必要とする外れ者として画像の1.14%を拒絶する競争性能(0.943)を達成する。
さらに,本研究は,本種の現実的な長期分布に対するロバスト性を示すとともに,年齢層,性的二型,ペラージの差異など,意図的過剰クラスタリングが具体的変異を確実に抽出できることを示す。
オープンソースのベンチマークツールキットを導入し、生態学者が特定の分類群やデータを分類する適切な方法を選択することを推奨する。
関連論文リスト
- Zero-Shot Wildlife Sorting Using Vision Transformers: Evaluating Clustering and Continuous Similarity Ordering [0.0]
カメラトラップは何百万もの野生生物の画像を生成するが、多くのデータセットには既存の分類器にはない種が含まれている。
本研究は、自己監督型視覚変換器を用いて、ラベルなし野生生物画像の整理のためのゼロショットアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-16T11:59:18Z) - BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning [60.80381372245902]
生体視覚モデルでは,大規模コントラスト視覚言語学習により創発的行動が観察される。
我々は、異なる種を区別するために、TreeOfLife-200MでBioCLIP 2を訓練する。
得られたBioCLIP 2の埋め込み空間における創発的特性を同定する。
論文 参考訳(メタデータ) (2025-05-29T17:48:20Z) - BeetleVerse: A Study on Taxonomic Classification of Ground Beetles [0.310688583550805]
地上の甲虫は、非常に敏感で特異な生物学的指標であり、生物多様性のモニタリングに不可欠である。
本稿では,4つの多種多様な長い尾を持つデータセットの分類分類に関する12の視覚モデルを評価する。
その結果,視覚と言語変換器を頭部と組み合わせたモデルが最も優れており,97%の精度で種・種レベルでの精度が得られた。
論文 参考訳(メタデータ) (2025-04-18T01:06:37Z) - Species196: A One-Million Semi-supervised Dataset for Fine-grained
Species Recognition [30.327642724046903]
種196(英: species 196)は、196科の外来種の大規模な半教師付きデータセットである。
専門家レベルの正確なアノテーションである種196-Lと、侵入種196-Uの1.2M以上のラベルのない画像を集めている。
論文 参考訳(メタデータ) (2023-09-25T14:46:01Z) - Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。
提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Dynamic $\beta$-VAEs for quantifying biodiversity by clustering
optically recorded insect signals [0.6091702876917281]
本稿では,系統群によるデータのクラスタリングが可能な変分オートエンコーダ(VAE)の適応的変種を提案する。
南スカンジナビアの光記録昆虫信号に対する動的$beta$-VAEの有用性を実証した。
論文 参考訳(メタデータ) (2021-02-10T16:14:13Z) - Two-View Fine-grained Classification of Plant Species [66.75915278733197]
本研究では,2視点の葉のイメージ表現に基づく新しい手法と,植物種の粒度認識のための階層的分類戦略を提案する。
シームズ畳み込みニューラルネットワークに基づく深度測定は、多数のトレーニングサンプルへの依存を減らし、新しい植物種に拡張性を持たせるために用いられる。
論文 参考訳(メタデータ) (2020-05-18T21:57:47Z) - Automatic image-based identification and biomass estimation of
invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。
我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。
分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文 参考訳(メタデータ) (2020-02-05T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。