論文の概要: Towards Zero-Shot Camera Trap Image Categorization
- arxiv url: http://arxiv.org/abs/2410.12769v1
- Date: Wed, 16 Oct 2024 17:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:02.886371
- Title: Towards Zero-Shot Camera Trap Image Categorization
- Title(参考訳): ゼロショットカメラトラップ画像分類に向けて
- Authors: Jiří Vyskočil, Lukas Picek,
- Abstract要約: 本稿では,カメラトラップ画像の自動分類に対する代替手法の探索について述べる。
すべての画像に対して単一のモデルを用いて最先端の分類器をベンチマークする。
次に,MegaDetectorを1つ以上の分類器とSegment Anythingを組み合わせて,位置特化オーバーフィッティングの低減効果を評価する。
最後に,DINOv2,BioCLIP,BLIP,ChatGPTなどの大規模言語モデルと基礎モデルを用いて,ゼロショットシナリオで2つのアプローチを提案し,検証する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper describes the search for an alternative approach to the automatic categorization of camera trap images. First, we benchmark state-of-the-art classifiers using a single model for all images. Next, we evaluate methods combining MegaDetector with one or more classifiers and Segment Anything to assess their impact on reducing location-specific overfitting. Last, we propose and test two approaches using large language and foundational models, such as DINOv2, BioCLIP, BLIP, and ChatGPT, in a zero-shot scenario. Evaluation carried out on two publicly available datasets (WCT from New Zealand, CCT20 from the Southwestern US) and a private dataset (CEF from Central Europe) revealed that combining MegaDetector with two separate classifiers achieves the highest accuracy. This approach reduced the relative error of a single BEiTV2 classifier by approximately 42\% on CCT20, 48\% on CEF, and 75\% on WCT. Besides, as the background is removed, the error in terms of accuracy in new locations is reduced to half. The proposed zero-shot pipeline based on DINOv2 and FAISS achieved competitive results (1.0\% and 4.7\% smaller on CCT20, and CEF, respectively), which highlights the potential of zero-shot approaches for camera trap image categorization.
- Abstract(参考訳): 本稿では,カメラトラップ画像の自動分類に対する代替手法の探索について述べる。
まず、すべての画像に対して単一のモデルを用いて、最先端の分類器をベンチマークする。
次に,MegaDetectorを1つ以上の分類器とSegment Anythingを組み合わせて,位置特化オーバーフィッティングの低減効果を評価する。
最後に,DINOv2,BioCLIP,BLIP,ChatGPTなどの大規模言語モデルと基礎モデルを用いて,ゼロショットシナリオで2つのアプローチを提案し,検証する。
2つの公開データセット(ニュージーランドのWCT、米国南西部のCCT20、中央ヨーロッパのCEF)と、MegaDetectorと2つの別個の分類器を組み合わせることで、最も精度が高いことが判明した。
このアプローチにより、単一BEiTV2分類器の相対誤差は、CCT20では約42 %、CEFでは48 %、WCTでは75 %削減された。
また、背景を除去すると、新しい位置における精度の誤差が半減する。
提案されたDINOv2とFAISSに基づくゼロショットパイプラインは、競合する結果(それぞれCCT20では1.0\%、CEFでは4.7\%)を達成し、カメラトラップ画像分類におけるゼロショットアプローチの可能性を強調した。
関連論文リスト
- Re-Scoring Using Image-Language Similarity for Few-Shot Object Detection [4.0208298639821525]
ラベルの少ない新規なオブジェクトの検出に焦点をあてるオブジェクト検出は,コミュニティにおいて新たな課題となっている。
近年の研究では、事前訓練されたモデルや修正された損失関数の適応により、性能が向上することが示されている。
我々は、より高速なR-CNNを拡張するFew-shot Object Detection (RISF)のための画像言語類似性を用いた再構成を提案する。
論文 参考訳(メタデータ) (2023-11-01T04:04:34Z) - Rethinking Image Forgery Detection via Contrastive Learning and
Unsupervised Clustering [26.923409536155166]
画像偽造検出のためのFOCAL(FOrensic ContrAstive cLustering)法を提案する。
FOCALは対照的な学習と教師なしクラスタリングに基づいている。
その結果、FOCALは最先端の競合アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-08-18T05:05:30Z) - Enhanced Sharp-GAN For Histopathology Image Synthesis [63.845552349914186]
病理組織像合成は、正確ながん検出のためのディープラーニングアプローチの訓練において、データ不足の問題に対処することを目的としている。
核トポロジと輪郭正則化を用いて合成画像の品質を向上させる新しい手法を提案する。
提案手法は、Sharp-GANを2つのデータセット上の4つの画像品質指標すべてで上回る。
論文 参考訳(メタデータ) (2023-01-24T17:54:01Z) - Adaptation to CT Reconstruction Kernels by Enforcing Cross-domain
Feature Maps Consistency [0.06117371161379209]
本研究は,スムーズで訓練し,鋭い再構築カーネル上で試験したモデルにおいて,新型コロナウイルスのセグメンテーション品質の低下を示すものである。
本稿では,F-Consistency(F-Consistency)と呼ばれる,教師なし適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T10:00:03Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Hierarchical Convolutional Neural Network with Feature Preservation and
Autotuned Thresholding for Crack Detection [5.735035463793008]
ドローンの画像はインフラ表面の欠陥の自動検査にますます使われている。
本稿では,階層型畳み込みニューラルネットワークを用いた深層学習手法を提案する。
提案手法は, 道路, 橋, 舗装の表面ひび割れの同定に応用されている。
論文 参考訳(メタデータ) (2021-04-21T13:07:58Z) - DetCo: Unsupervised Contrastive Learning for Object Detection [64.22416613061888]
教師なしのコントラスト学習は,CNNを用いた画像表現学習において大きな成功を収めている。
我々は,グローバルイメージとローカルイメージパッチのコントラストをフルに検討する,DetCoという新しいコントラスト学習手法を提案する。
DetCoは1倍のスケジュールでMask RCNN-C4/FPN/RetinaNet上で1.6/1.2/1.0 APで教師付き手法を一貫して上回っている。
論文 参考訳(メタデータ) (2021-02-09T12:47:20Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z) - Evading Deepfake-Image Detectors with White- and Black-Box Attacks [75.13740810603686]
一般的な法医学的アプローチは、ニューラルネットワークを訓練して、実際の合成内容と区別することを示します。
我々は,既存の画像生成装置の約0.95のLOC曲線(AUC)以下の領域を達成できる最先端の分類器に関する5つの攻撃事例研究を開発した。
また、ターゲット分類器にアクセスできないブラックボックス攻撃により、AUCを0.22に削減する。
論文 参考訳(メタデータ) (2020-04-01T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。