論文の概要: CATALOG: A Camera Trap Language-guided Contrastive Learning Model
- arxiv url: http://arxiv.org/abs/2412.10624v1
- Date: Sat, 14 Dec 2024 00:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:03.361782
- Title: CATALOG: A Camera Trap Language-guided Contrastive Learning Model
- Title(参考訳): CATALOG: 言語誘導型コントラスト学習モデル
- Authors: Julian D. Santamaria, Claudia Isaza, Jhony H. Giraldo,
- Abstract要約: これらの問題に対処するために,カメラトラップ言語誘導コントラスト学習(CATALOG)モデルを提案する。
提案手法は,複数のFMを組み合わせて,カメラトラップデータから視覚的特徴とテキスト的特徴を抽出し,対照的な損失関数を用いてモデルを訓練する。
CATALOGを2つのベンチマークデータセット上で評価し、カメラトラップ画像認識における従来の最先端手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 1.77513002450736
- License:
- Abstract: Foundation Models (FMs) have been successful in various computer vision tasks like image classification, object detection and image segmentation. However, these tasks remain challenging when these models are tested on datasets with different distributions from the training dataset, a problem known as domain shift. This is especially problematic for recognizing animal species in camera-trap images where we have variability in factors like lighting, camouflage and occlusions. In this paper, we propose the Camera Trap Language-guided Contrastive Learning (CATALOG) model to address these issues. Our approach combines multiple FMs to extract visual and textual features from camera-trap data and uses a contrastive loss function to train the model. We evaluate CATALOG on two benchmark datasets and show that it outperforms previous state-of-the-art methods in camera-trap image recognition, especially when the training and testing data have different animal species or come from different geographical areas. Our approach demonstrates the potential of using FMs in combination with multi-modal fusion and contrastive learning for addressing domain shifts in camera-trap image recognition. The code of CATALOG is publicly available at https://github.com/Julian075/CATALOG.
- Abstract(参考訳): ファンデーションモデル(FM)は、画像分類、オブジェクト検出、イメージセグメンテーションといった様々なコンピュータビジョンタスクで成功している。
しかしながら、これらのモデルがトレーニングデータセットから異なる分布を持つデータセット上でテストされる場合、ドメインシフトと呼ばれる問題では、これらのタスクは依然として困難である。
これは、照明、カモフラージュ、閉塞などの要因にばらつきがあるカメラトラップ画像において、動物種を認識する上で特に問題となる。
本稿では,これらの問題に対処するカメラトラップ言語誘導コントラスト学習(CATALOG)モデルを提案する。
提案手法は,複数のFMを組み合わせて,カメラトラップデータから視覚的特徴とテキスト的特徴を抽出し,対照的な損失関数を用いてモデルを訓練する。
我々は,CATALOGを2つのベンチマークデータセット上で評価し,カメラトラップ画像認識における従来の最先端手法よりも優れていることを示す。
提案手法は,マルチモーダル融合とコントラスト学習を併用して,カメラトラップ画像認識における領域シフトに対処する可能性を示す。
CATALOGのコードはhttps://github.com/Julian075/CATALOGで公開されている。
関連論文リスト
- The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。
我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。
我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文 参考訳(メタデータ) (2023-08-21T01:59:45Z) - The Art of Camouflage: Few-Shot Learning for Animal Detection and Segmentation [21.047026366450197]
カモフラージュされた物体の検出とセグメンテーションにおける数ショット学習の問題に対処する。
そこで我々は, Camouflaged インスタンスを効率的に検出・分割するフレームワーク FS-CDIS を提案する。
提案手法は,新たに収集したデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-04-15T01:33:14Z) - Choosing an Appropriate Platform and Workflow for Processing Camera Trap
Data using Artificial Intelligence [0.18350044465969417]
カメラトラップは、生態学者が野生生物種の分布、活動パターン、種間相互作用を研究する方法を変えてきた。
カメラトラップデータを処理する人工知能(AI)、特にディープラーニング(DL)の可能性に大きな注目を集めている。
これらのアプリケーションにDLを使用するには、オブジェクトを自動的に検出して種を分類するConvolutional Neural Networks(CNN)のようなトレーニングアルゴリズムが含まれる。
論文 参考訳(メタデータ) (2022-02-04T18:13:09Z) - Towards Fine-grained Image Classification with Generative Adversarial
Networks and Facial Landmark Detection [0.0]
GANベースのデータ拡張を使用して、余分なデータセットインスタンスを生成します。
近年の視覚変換器 (ViT) モデルを用いて, きめ細かい画像分類の精度を評価し, 評価を行った。
論文 参考訳(メタデータ) (2021-08-28T06:32:42Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - Joint Noise-Tolerant Learning and Meta Camera Shift Adaptation for
Unsupervised Person Re-Identification [60.36551512902312]
unsupervised person re-identification (re-ID) は、ラベルのないデータで識別モデルを学ぶことを目的としている。
一般的な方法としては、クラスタ化によって擬似ラベルを取得し、モデルを最適化するために使用する方法がある。
本稿では,両問題を解決するための統一フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-08T09:13:06Z) - Automatic Detection and Recognition of Individuals in Patterned Species [4.163860911052052]
我々は,異なるパターンの個体の自動検出と認識のための枠組みを開発する。
我々は最近提案したFaster-RCNNオブジェクト検出フレームワークを用いて画像中の動物を効率的に検出する。
我々は,シマウマおよびジャガー画像の認識システムを評価し,他のパターンの種への一般化を示す。
論文 参考訳(メタデータ) (2020-05-06T15:29:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。