論文の概要: Recurrence over Video Frames (RoVF) for the Re-identification of Meerkats
- arxiv url: http://arxiv.org/abs/2406.13002v1
- Date: Tue, 18 Jun 2024 18:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 00:28:02.767466
- Title: Recurrence over Video Frames (RoVF) for the Re-identification of Meerkats
- Title(参考訳): ビデオフレーム(RoVF)によるMeerkatの再同定
- Authors: Mitchell Rogers, Kobe Knowles, Gaël Gendron, Shahrokh Heidari, David Arturo Soriano Valdez, Mihailo Azhar, Padriac O'Leary, Simon Eyre, Michael Witbrock, Patrice Delmas,
- Abstract要約: 本稿では、Perceiverアーキテクチャに基づく繰り返しヘッドを用いて、ビデオクリップから埋め込みを反復的に構築するRecurrence over Video Frames (RoVF)という手法を提案する。
我々は、ウェリントン動物園で収集されたミーアカットのデータセット上で、DINOv2トランスフォーマーアーキテクチャに基づいて、この手法と様々なモデルを検証した。
提案手法は,最高の DINOv2 モデル (42%$) よりも高い 49%$ のトップ1再同定精度を実現する。
- 参考スコア(独自算出の注目度): 4.512615837610558
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning approaches for animal re-identification have had a major impact on conservation, significantly reducing the time required for many downstream tasks, such as well-being monitoring. We propose a method called Recurrence over Video Frames (RoVF), which uses a recurrent head based on the Perceiver architecture to iteratively construct an embedding from a video clip. RoVF is trained using triplet loss based on the co-occurrence of individuals in the video frames, where the individual IDs are unavailable. We tested this method and various models based on the DINOv2 transformer architecture on a dataset of meerkats collected at the Wellington Zoo. Our method achieves a top-1 re-identification accuracy of $49\%$, which is higher than that of the best DINOv2 model ($42\%$). We found that the model can match observations of individuals where humans cannot, and our model (RoVF) performs better than the comparisons with minimal fine-tuning. In future work, we plan to improve these models by using pre-text tasks, apply them to animal behaviour classification, and perform a hyperparameter search to optimise the models further.
- Abstract(参考訳): 動物の再識別のための深層学習アプローチは、保護に大きな影響を与えており、幸福なモニタリングなど、下流の多くのタスクに要する時間を大幅に短縮した。
本稿では、Perceiverアーキテクチャに基づく繰り返しヘッドを用いて、ビデオクリップから埋め込みを反復的に構築するRecurrence over Video Frames (RoVF)という手法を提案する。
RoVFは、ビデオフレーム内の個人の共起に基づいてトリプルトロスを使用して訓練される。
我々は、ウェリントン動物園で収集されたミーアカットのデータセット上で、DINOv2トランスフォーマーアーキテクチャに基づいて、この手法と様々なモデルを検証した。
提案手法は,最高値の DINOv2 モデル (42 %$) よりも高い 49 %$ のトップ1再同定精度を実現する。
このモデルでは,人間にはできない個体の観察と一致し,我々のモデル (RoVF) は最小限の微調整との比較よりも優れていることがわかった。
今後の研究では、プレテキストタスクを用いてこれらのモデルを改良し、動物行動分類に適用し、ハイパーパラメーター探索を行い、モデルをさらに最適化する予定である。
関連論文リスト
- UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - Score-Guided Diffusion for 3D Human Recovery [10.562998991986102]
Score-Guided Human Mesh Recovery (ScoreHMR)を提案する。
ScoreHMRはモデルフィッティングアプローチを模倣するが、拡散モデルの潜在空間におけるスコアガイダンスによって画像観察との整合が達成される。
提案手法は, (i) 単フレームモデルフィッティング, (ii) 複数視点からの再構成, (iii) ビデオシーケンスで人間を再構成することである。
論文 参考訳(メタデータ) (2024-03-14T17:56:14Z) - Boot and Switch: Alternating Distillation for Zero-Shot Dense Retrieval [50.47192086219752]
$texttABEL$は、ゼロショット設定でのパス検索を強化するための、シンプルだが効果的な教師なしのメソッドである。
ラベル付きデータに対して$texttABEL$を微調整するか、既存の教師付き高密度検索と統合することにより、最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-11-27T06:22:57Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - Common Pets in 3D: Dynamic New-View Synthesis of Real-Life Deformable
Categories [80.30216777363057]
コモンペットを3Dで紹介する(CoP3D)。
テスト時には、目に見えないオブジェクトの少数のビデオフレームが与えられたとき、Tracker-NeRFはその3Dポイントの軌跡を予測し、新しいビューを生成する。
CoP3Dの結果は、既存のベースラインよりも、厳密でない新規ビュー合成性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-07T22:42:42Z) - SuperAnimal pretrained pose estimation models for behavioral analysis [42.206265576708255]
行動の定量化は神経科学、獣医学、動物保護活動など様々な応用において重要である。
我々は、SuperAnimalと呼ばれる新しい手法で統一基盤モデルを開発するための一連の技術革新を提案する。
論文 参考訳(メタデータ) (2022-03-14T18:46:57Z) - You Only Need One Model for Open-domain Question Answering [26.582284346491686]
オープンドメイン質問回答に関する最近の研究は、検索モデルを用いた外部知識ベースを参照。
本稿では,トランスアーキテクチャ内で順次適用されるハードアテンション機構として,レトリバーとリランカのキャスティングを提案する。
我々は,Natural Questions と TriviaQA のオープンデータセットに関するモデルを評価し,従来の最先端モデルよりも1.0 と 0.7 の精度で優れた結果を得た。
論文 参考訳(メタデータ) (2021-12-14T13:21:11Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Fine-Grained Re-Identification [1.8275108630751844]
本稿では,画像とビデオのReIDを統一する最初のモデルのひとつとして,計算効率のよいReIDモデルFGReIDを提案する。
FGReIDは、ビデオベースの事前学習と空間的特徴の注意を生かして、ビデオと画像の両方のReIDタスクのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2020-11-26T21:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。