論文の概要: Self-Supervised Animal Identification for Long Videos
- arxiv url: http://arxiv.org/abs/2601.09663v1
- Date: Wed, 14 Jan 2026 17:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.493198
- Title: Self-Supervised Animal Identification for Long Videos
- Title(参考訳): 長時間ビデオのための自己監督型動物識別
- Authors: Xuyang Fang, Sion Hannuna, Edwin Simpson, Neill Campbell,
- Abstract要約: 我々は,動物識別をグローバルクラスタリングタスクとして再編成する,効率的で自己管理的な手法を提案する。
私たちのフレームワークは1000以上のラベル付きフレームでトレーニングされた教師付きベースラインと一致または超えます。
この研究により、消費者階級のハードウェア上で、実用的で高精度な動物識別が可能になる。
- 参考スコア(独自算出の注目度): 0.8233028449337972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying individual animals in long-duration videos is essential for behavioral ecology, wildlife monitoring, and livestock management. Traditional methods require extensive manual annotation, while existing self-supervised approaches are computationally demanding and ill-suited for long sequences due to memory constraints and temporal error propagation. We introduce a highly efficient, self-supervised method that reframes animal identification as a global clustering task rather than a sequential tracking problem. Our approach assumes a known, fixed number of individuals within a single video -- a common scenario in practice -- and requires only bounding box detections and the total count. By sampling pairs of frames, using a frozen pre-trained backbone, and employing a self-bootstrapping mechanism with the Hungarian algorithm for in-batch pseudo-label assignment, our method learns discriminative features without identity labels. We adapt a Binary Cross Entropy loss from vision-language models, enabling state-of-the-art accuracy ($>$97\%) while consuming less than 1 GB of GPU memory per batch -- an order of magnitude less than standard contrastive methods. Evaluated on challenging real-world datasets (3D-POP pigeons and 8-calves feeding videos), our framework matches or surpasses supervised baselines trained on over 1,000 labeled frames, effectively removing the manual annotation bottleneck. This work enables practical, high-accuracy animal identification on consumer-grade hardware, with broad applicability in resource-constrained research settings. All code written for this paper are \href{https://huggingface.co/datasets/tonyFang04/8-calves}{here}.
- Abstract(参考訳): 長期ビデオで個々の動物を識別することは、行動生態学、野生生物モニタリング、家畜管理に不可欠である。
従来の手法は広範な手動のアノテーションを必要とするが、既存の自己教師型アプローチは、メモリの制約や時間的エラーの伝播により、長いシーケンスに対して計算的に要求され、不適当である。
本研究では,動物識別を逐次追跡問題ではなく,グローバルクラスタリングタスクとして再編成する,効率的で自己管理的な手法を提案する。
このアプローチでは、単一のビデオ内の既知の固定数の個人(実際には一般的なシナリオ)を仮定し、バウンディングボックスの検出と合計数のみを必要とします。
フレームのペアをサンプリングし,凍結事前学習したバックボーンを用いて,ハンガリーのアルゴリズムを用いた自己ブートストラップ機構を用いて,識別ラベルのない識別特徴を学習する。
ビジョン言語モデルからのバイナリクロスエントロピー損失に適応し、最先端の精度($97\%)を実現しつつ、1バッチあたり1GB未満のGPUメモリを消費します。
私たちのフレームワークは、1000以上のラベル付きフレームでトレーニングされた教師付きベースラインと一致し、手動のアノテーションボトルネックを効果的に除去します。
本研究は,資源制約のある研究環境に広く適用可能な,コンシューマグレードのハードウェア上での,実用的で高精度な動物識別を可能にする。
この論文のために書かれたコードは、すべて \href{https://huggingface.co/datasets/tonyFang04/8-calves}{here} である。
関連論文リスト
- Cattle-CLIP: A Multimodal Framework for Cattle Behaviour Recognition [5.45546363077543]
Cattle-CLIPは、牛の行動認識のためのマルチモーダルなディープラーニングフレームワークである。
これは、時間統合モジュールを追加することで、大規模な画像言語モデルCLIPから適応される。
実験により、キャトル-CLIPは6つの行動に対して96.1%の総合的精度を達成することが示された。
論文 参考訳(メタデータ) (2025-10-10T09:43:12Z) - From Forest to Zoo: Great Ape Behavior Recognition with ChimpBehave [0.0]
ChimpBehaveは動物園で飼育されているチンパンジーの2時間以上のビデオ(約193,000フレーム)を特徴とする新しいデータセットだ。
ChimpBehaveは、アクション認識のためのバウンディングボックスやビヘイビアラベルに細心の注意を払ってアノテートする。
我々は、最先端のCNNベースの行動認識モデルを用いてデータセットをベンチマークする。
論文 参考訳(メタデータ) (2024-05-30T13:11:08Z) - MBW: Multi-view Bootstrapping in the Wild [30.038254895713276]
微細な検出器を訓練するマルチカメラシステムは、そのようなエラーを検出することを約束している。
このアプローチは、キャリブレーションされたカメラと厳密な幾何学に基づいており、現実のシナリオでは高価で、管理が難しく、実用的ではない。
本稿では,高忠実度ランドマーク推定値を得るために,非剛性3次元ニューラルネットワークと深部流れを組み合わせることで,これらのボトルネックに対処する。
既存の手法では不可能な3D再構成とともに、最先端の完全教師付き手法に匹敵する2D結果を生成することができる。
論文 参考訳(メタデータ) (2022-10-04T16:27:54Z) - SuperAnimal pretrained pose estimation models for behavioral analysis [42.206265576708255]
行動の定量化は神経科学、獣医学、動物保護活動など様々な応用において重要である。
我々は、SuperAnimalと呼ばれる新しい手法で統一基盤モデルを開発するための一連の技術革新を提案する。
論文 参考訳(メタデータ) (2022-03-14T18:46:57Z) - Persistent Animal Identification Leveraging Non-Visual Markers [71.14999745312626]
乱雑なホームケージ環境下で各マウスにユニークな識別子を時間をかけて発見し提供することを目的としている。
これは、(i)各マウスの視覚的特徴の区別の欠如、(ii)一定の閉塞を伴うシーンの密閉性のため、非常に難しい問題である。
本手法は, この動物識別問題に対して77%の精度を達成し, 動物が隠れているときの急激な検出を拒否することができる。
論文 参考訳(メタデータ) (2021-12-13T17:11:32Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z) - Face Forensics in the Wild [121.23154918448618]
我々は、ffiw-10kと呼ばれる新しい大規模データセットを構築し、高品質の偽造ビデオ1万本を含む。
操作手順は完全自動で、ドメイン対逆品質評価ネットワークによって制御されます。
さらに,多人数顔偽造検出の課題に取り組むための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T05:06:19Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z) - Visual Identification of Individual Holstein-Friesian Cattle via Deep
Metric Learning [8.784100314325395]
ホルシュタイン・フリーズ産の牛は、チューリングの反応拡散系から生じたものと類似した、個々の特性の白黒のコートパターンを視覚的に示す。
この研究は、畳み込みニューラルネットワークとディープメトリック学習技術を介して、個々のホルシュタイン・フリース人の視覚的検出と生体認証を自動化するために、これらの自然なマーキングを利用する。
論文 参考訳(メタデータ) (2020-06-16T14:41:55Z) - Evolving Losses for Unsupervised Video Representation Learning [91.2683362199263]
大規模未ラベル映像データから映像表現を学習する新しい手法を提案する。
提案した教師なし表現学習では,単一のRGBネットワークが実現し,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-02-26T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。