論文の概要: An Individual Identity-Driven Framework for Animal Re-Identification
- arxiv url: http://arxiv.org/abs/2410.22927v1
- Date: Wed, 30 Oct 2024 11:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:24:18.705556
- Title: An Individual Identity-Driven Framework for Animal Re-Identification
- Title(参考訳): 動物再同定のための個人識別型フレームワーク
- Authors: Yihao Wu, Di Zhao, Jingfeng Zhang, Yun Sing Koh,
- Abstract要約: IndivAIDはAnimal ReID用に特別に設計されたフレームワークである。
画像特異的で個人固有のテキスト記述を生成し、動物画像を通して個々の視覚概念をフルにキャプチャする。
8つのベンチマークデータセットと現実世界のStoatデータセットにわたる最先端メソッドに対する評価は、IndivAIDの有効性と適用性を示している。
- 参考スコア(独自算出の注目度): 15.381573249551181
- License:
- Abstract: Reliable re-identification of individuals within large wildlife populations is crucial for biological studies, ecological research, and wildlife conservation. Classic computer vision techniques offer a promising direction for Animal Re-identification (Animal ReID), but their backbones' close-set nature limits their applicability and generalizability. Despite the demonstrated effectiveness of vision-language models like CLIP in re-identifying persons and vehicles, their application to Animal ReID remains limited due to unique challenges, such as the various visual representations of animals, including variations in poses and forms. To address these limitations, we leverage CLIP's cross-modal capabilities to introduce a two-stage framework, the \textbf{Indiv}idual \textbf{A}nimal \textbf{ID}entity-Driven (IndivAID) framework, specifically designed for Animal ReID. In the first stage, IndivAID trains a text description generator by extracting individual semantic information from each image, generating both image-specific and individual-specific textual descriptions that fully capture the diverse visual concepts of each individual across animal images. In the second stage, IndivAID refines its learning of visual concepts by dynamically incorporating individual-specific textual descriptions with an integrated attention module to further highlight discriminative features of individuals for Animal ReID. Evaluation against state-of-the-art methods across eight benchmark datasets and a real-world Stoat dataset demonstrates IndivAID's effectiveness and applicability. Code is available at \url{https://github.com/ywu840/IndivAID}.
- Abstract(参考訳): 大型野生生物の個体の再同定は、生物学的研究、生態学的研究、野生生物の保全に不可欠である。
古典的なコンピュータビジョン技術は動物再識別(Animal ReID)に有望な方向を提供するが、背骨の近接した性質は適用性と一般化性を制限している。
CLIPのような視覚言語モデルが人や車を再識別する効果が実証されているにもかかわらず、動物の視覚的表現や、ポーズや形の変化など、ユニークな課題のために、それらの動物保護法への応用は限定的のままである。
これらの制限に対処するために、CLIPのクロスモーダル機能を活用して、2段階のフレームワークである \textbf{Indiv}idual \textbf{A}nimal \textbf{ID}entity-Driven (IndivAID)を導入する。
第一段階では、IndivAIDは、各画像から個々の意味情報を抽出してテキスト記述ジェネレータを訓練し、画像固有のものと個人固有のテキスト記述の両方を生成し、各画像の多様な視覚概念を完全にキャプチャする。
第二段階では、IndivAIDは、個人固有のテキスト記述を動的に統合された注意モジュールに組み込むことで視覚概念の学習を洗練し、動物のReIDに対する個人の識別的特徴をさらに強調する。
8つのベンチマークデータセットと現実世界のStoatデータセットにわたる最先端メソッドに対する評価は、IndivAIDの有効性と適用性を示している。
コードは \url{https://github.com/ywu840/IndivAID} で入手できる。
関連論文リスト
- OpenAnimals: Revisiting Person Re-Identification for Animals Towards Better Generalization [10.176567936487364]
本研究は,BoT,AGW,SBS,MGNなど,最先端の人物再同定手法を再検討することによって実施する。
我々は,HyenaID,LeopardID,SeaTurtleID,WhaleSharkIDなどの動物再同定ベンチマークにおいて,その有効性を評価する。
以上の結果から,いくつかの手法がうまく機能する一方で,多くの手法が一般化せず,2つの課題の間に有意な違いがあることが判明した。
textbfAnimal textbfReに適した強力な textbfBase モデルである ARBase を提案する。
論文 参考訳(メタデータ) (2024-09-30T20:07:14Z) - PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。
本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。
我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文 参考訳(メタデータ) (2024-08-29T16:31:05Z) - Addressing the Elephant in the Room: Robust Animal Re-Identification with Unsupervised Part-Based Feature Alignment [44.86310789545717]
動物型Re-IDは野生生物の保護に不可欠だが、人間型Re-IDと比較すると独特な課題に直面している。
本研究では,学習段階と評価段階の背景を体系的に除去する手法を提案することにより,背景バイアスに対処する。
本手法は,ATRW,YakReID-103,ELPephantsの3種の動物Re-IDデータセットにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2024-05-22T16:08:06Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - An Open-World, Diverse, Cross-Spatial-Temporal Benchmark for Dynamic Wild Person Re-Identification [58.5877965612088]
人物再識別(ReID)は、データ駆動のディープラーニング技術のおかげで大きな進歩を遂げました。
既存のベンチマークデータセットには多様性がなく、これらのデータに基づいてトレーニングされたモデルは、動的なワイルドシナリオに対してうまく一般化できない。
OWDと呼ばれる新しいOpen-World, Diverse, Cross-Spatial-Temporalデータセットを開発した。
論文 参考訳(メタデータ) (2024-03-22T11:21:51Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - UniAP: Towards Universal Animal Perception in Vision via Few-shot
Learning [24.157933537030086]
様々な視覚的タスクにおいて種間認識を可能にする新しいユニバーサル・アニマル・パーセプション・モデルであるUniAPを紹介した。
異なる動物やタスク間で共有される視覚的特徴を活かすことで、UniAPは、よく研究された種から限られたラベル付きデータや未知の種への知識の伝達を可能にしている。
論文 参考訳(メタデータ) (2023-08-19T09:13:46Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - CLAMP: Prompt-based Contrastive Learning for Connecting Language and
Animal Pose [70.59906971581192]
本稿では,言語とAniMal Poseを効果的に接続するための,新しいプロンプトベースのコントラスト学習手法を提案する。
CLAMPは、ネットワークトレーニング中にテキストプロンプトを動物のキーポイントに適応させることでギャップを埋めようとしている。
実験結果から, 教師付き, 少数ショット, ゼロショット設定下での最先端性能が得られた。
論文 参考訳(メタデータ) (2022-06-23T14:51:42Z) - Taking Modality-free Human Identification as Zero-shot Learning [46.51413603352702]
我々は、新しいモダリティフリーヒューマン識別(MFHI)タスクを、スケーラブルな方法で汎用的なゼロショット学習モデルとして開発する。
各アイデンティティの識別プロトタイプを学習することで、視覚的および意味的なモダリティをブリッジすることができる。
さらに、意味論に基づく空間的注意は、高グローバルなカテゴリーレベルと局所的な属性レベルを区別した表現を得るために、視覚的モダリティに強制される。
論文 参考訳(メタデータ) (2020-10-02T13:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。