論文の概要: Long-tailed Species Recognition in the NACTI Wildlife Dataset
- arxiv url: http://arxiv.org/abs/2510.21657v1
- Date: Fri, 24 Oct 2025 17:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.554092
- Title: Long-tailed Species Recognition in the NACTI Wildlife Dataset
- Title(参考訳): NACTI野生生物データセットにおける長い尾の種認識
- Authors: Zehua Liu, Tilo Burghardt,
- Abstract要約: North America Camera Trap Imagesデータセットは、非常に長い尾を持つクラスの不均衡を示しています。
NACTIテストデータの分割における最良の設定精度は99.40%である。
最大では、すべてのデータセットの分割、キーコード、および完全なネットワーク重みを公開します。
- 参考スコア(独自算出の注目度): 7.060604438610721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As most ''in the wild'' data collections of the natural world, the North America Camera Trap Images (NACTI) dataset shows severe long-tailed class imbalance, noting that the largest 'Head' class alone covers >50% of the 3.7M images in the corpus. Building on the PyTorch Wildlife model, we present a systematic study of Long-Tail Recognition methodologies for species recognition on the NACTI dataset covering experiments on various LTR loss functions plus LTR-sensitive regularisation. Our best configuration achieves 99.40% Top-1 accuracy on our NACTI test data split, substantially improving over a 95.51% baseline using standard cross-entropy with Adam. This also improves on previously reported top performance in MLWIC2 at 96.8% albeit using partly unpublished (potentially different) partitioning, optimiser, and evaluation protocols. To evaluate domain shifts (e.g. night-time captures, occlusion, motion-blur) towards other datasets we construct a Reduced-Bias Test set from the ENA-Detection dataset where our experimentally optimised long-tail enhanced model achieves leading 52.55% accuracy (up from 51.20% with WCE loss), demonstrating stronger generalisation capabilities under distribution shift. We document the consistent improvements of LTR-enhancing scheduler choices in this NACTI wildlife domain, particularly when in tandem with state-of-the-art LTR losses. We finally discuss qualitative and quantitative shortcomings that LTR methods cannot sufficiently address, including catastrophic breakdown for 'Tail' classes under severe domain shift. For maximum reproducibility we publish all dataset splits, key code, and full network weights.
- Abstract(参考訳): 北米カメラトラップ画像(NACTI)データセットは、自然界の「野生の」データ収集のほとんどと同様に、大きな「ヘッド」クラスのみがコーパス内の3.7M画像の50%以上をカバーしていることを指摘し、非常に長い尾を持つクラスの不均衡を示している。
我々は,PyTorch Wildlifeモデルに基づいて,様々なLTR損失関数とLTR感度正則化に関する実験をカバーしたNACIデータセット上での種認識のためのLong-Tail認識手法の体系的研究を行った。
NACTIテストデータを分割して99.40%のTop-1精度を実現し、Adamとの標準的なクロスエントロピーを用いて、95.51%のベースラインを大幅に改善しました。
また、MLWIC2の96.8%では、部分的に未発表(潜在的に異なる)パーティショニング、オプティマイザ、評価プロトコルを使用して、以前報告されたトップパフォーマンスを改善している。
他のデータセットに対するドメインシフト(例えば、夜間キャプチャ、オクルージョン、モーションブルー)を評価するために、ENA-DetectionデータセットからReduceed-Bias Testセットを構築し、実験的に最適化されたロングテール強化モデルにより、52.55%の精度(WCE損失の51.20%から)を達成し、分散シフトによるより強力な一般化能力を示す。
NACTI野生生物領域におけるLTR向上スケジューラ選択の一貫した改善について述べる。
我々は最終的に、LTR法が十分に対応できない質的、定量的な欠点について論じる。
最大再現性のために、すべてのデータセット分割、キーコード、全ネットワーク重みを公開します。
関連論文リスト
- Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Extract More from Less: Efficient Fine-Grained Visual Recognition in Low-Data Regimes [0.22499166814992438]
本稿では,この課題に対するディープニューラルネットワークの性能向上を目的とした,AD-Netと呼ばれる新しいフレームワークを提案する。
特に, 本手法は, 強化試料を自己蒸留し, 有害なオーバーフィッティングを緩和することにより, 学習機能を洗練することを目的としている。
最小限のデータで、我々のフレームワークは、最大で45%の精度で顕著な相対的正確性を示した。
論文 参考訳(メタデータ) (2024-06-28T10:45:25Z) - Boosting Long-tailed Object Detection via Step-wise Learning on
Smooth-tail Data [60.64535309016623]
カテゴリの長い尾の分布がスムーズに減衰し、ヘッドクラスに対するバイアスを補正するスムーズなテールデータを構築する。
我々は,ヘッドクラス支配的なリプレイデータに基づいて,事前学習したモデルのクラスに依存しないモジュールを微調整する。
我々は、すべてのカテゴリの正確な検出を保証するため、トップクラスエキスパートモデルから知識を伝達しながら、テールクラス支配的なリプレイデータ上で統一モデルを訓練する。
論文 参考訳(メタデータ) (2023-05-22T08:53:50Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Test-time Batch Statistics Calibration for Covariate Shift [66.7044675981449]
我々は,推論中に深層モデルを新しい環境に適応させることを提案する。
バッチ統計の校正に$alpha$-BNの一般的な定式化を提案する。
また、統合テスト時間適応フレームワークCoreを形成するための新しい損失関数も提示する。
論文 参考訳(メタデータ) (2021-10-06T08:45:03Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - Re-TACRED: Addressing Shortcomings of the TACRED Dataset [5.820381428297218]
TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。
このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。
しかし、彼らはまだ大規模なテキストコーポラで外部の知識と教師なしの事前訓練を利用しながら大きなエラー率を示しています。
論文 参考訳(メタデータ) (2021-04-16T22:55:11Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。