論文の概要: UniAP: Towards Universal Animal Perception in Vision via Few-shot
Learning
- arxiv url: http://arxiv.org/abs/2308.09953v1
- Date: Sat, 19 Aug 2023 09:13:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 18:49:11.924990
- Title: UniAP: Towards Universal Animal Perception in Vision via Few-shot
Learning
- Title(参考訳): UniAP:Few-shot Learningによる視覚のユニバーサル・アニマル・パーセプションを目指して
- Authors: Meiqi Sun, Zhonghan Zhao, Wenhao Chai, Hanjun Luo, Shidong Cao,
Yanting Zhang, Jenq-Neng Hwang, Gaoang Wang
- Abstract要約: 様々な視覚的タスクにおいて種間認識を可能にする新しいユニバーサル・アニマル・パーセプション・モデルであるUniAPを紹介した。
異なる動物やタスク間で共有される視覚的特徴を活かすことで、UniAPは、よく研究された種から限られたラベル付きデータや未知の種への知識の伝達を可能にしている。
- 参考スコア(独自算出の注目度): 24.157933537030086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animal visual perception is an important technique for automatically
monitoring animal health, understanding animal behaviors, and assisting
animal-related research. However, it is challenging to design a deep
learning-based perception model that can freely adapt to different animals
across various perception tasks, due to the varying poses of a large diversity
of animals, lacking data on rare species, and the semantic inconsistency of
different tasks. We introduce UniAP, a novel Universal Animal Perception model
that leverages few-shot learning to enable cross-species perception among
various visual tasks. Our proposed model takes support images and labels as
prompt guidance for a query image. Images and labels are processed through a
Transformer-based encoder and a lightweight label encoder, respectively. Then a
matching module is designed for aggregating information between prompt guidance
and the query image, followed by a multi-head label decoder to generate outputs
for various tasks. By capitalizing on the shared visual characteristics among
different animals and tasks, UniAP enables the transfer of knowledge from
well-studied species to those with limited labeled data or even unseen species.
We demonstrate the effectiveness of UniAP through comprehensive experiments in
pose estimation, segmentation, and classification tasks on diverse animal
species, showcasing its ability to generalize and adapt to new classes with
minimal labeled examples.
- Abstract(参考訳): 動物の視覚知覚は、動物の健康を自動監視し、動物の行動を理解し、動物関連の研究を支援する重要な技術である。
しかし,多様な動物の多様性,希少種に関するデータ不足,異なる課題の意味的不整合などにより,様々な知覚課題において異なる動物に自由に適応できる深層学習に基づく知覚モデルの設計は困難である。
多様な視覚的タスクの種間認識を可能にするために,数ショット学習を活用する新しいユニバーサル動物知覚モデルUniAPを紹介する。
提案モデルでは,クエリ画像に対する迅速な指示としてサポート画像とラベルを用いる。
画像とラベルはそれぞれトランスフォーマーベースのエンコーダと軽量なラベルエンコーダによって処理される。
次に、アプロンプトガイダンスとクエリイメージの間に情報を集約するためにマッチングモジュールを設計し、その後にマルチヘッドラベルデコーダを付けて様々なタスクの出力を生成する。
異なる動物やタスク間で共有された視覚特性を利用することで、uniapはよく研究された種からラベル付きデータや見当たらない種に知識を移すことができる。
多様な動物種に対するポーズ推定, セグメンテーション, 分類タスクの総合的な実験を通じてUniAPの有効性を実証し, 最小限のラベル付き例で新しいクラスに適応する能力を示す。
関連論文リスト
- An Individual Identity-Driven Framework for Animal Re-Identification [15.381573249551181]
IndivAIDはAnimal ReID用に特別に設計されたフレームワークである。
画像特異的で個人固有のテキスト記述を生成し、動物画像を通して個々の視覚概念をフルにキャプチャする。
8つのベンチマークデータセットと現実世界のStoatデータセットにわたる最先端メソッドに対する評価は、IndivAIDの有効性と適用性を示している。
論文 参考訳(メタデータ) (2024-10-30T11:34:55Z) - GPT-4o: Visual perception performance of multimodal large language models in piglet activity understanding [2.79453284883108]
本研究では,動物行動認識における多モーダル大言語モデルの視覚知覚能力について検討した。
その結果,現在のマルチモーダルLLMでは意味的対応や時間知覚の改善が求められているが,動物行動認識の視覚的認識能力が実証された。
論文 参考訳(メタデータ) (2024-06-14T07:30:26Z) - Multimodal Foundation Models for Zero-shot Animal Species Recognition in
Camera Trap Images [57.96659470133514]
モーションアクティベートカメラトラップは、世界中の野生生物を追跡・監視するための効率的なツールである。
教師付き学習技術は、そのような画像を分析するためにうまく展開されているが、そのような訓練には専門家のアノテーションが必要である。
コストのかかるラベル付きデータへの依存を減らすことは、人間の労働力を大幅に減らした大規模野生生物追跡ソリューションを開発する上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-02T08:32:00Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - CLAMP: Prompt-based Contrastive Learning for Connecting Language and
Animal Pose [70.59906971581192]
本稿では,言語とAniMal Poseを効果的に接続するための,新しいプロンプトベースのコントラスト学習手法を提案する。
CLAMPは、ネットワークトレーニング中にテキストプロンプトを動物のキーポイントに適応させることでギャップを埋めようとしている。
実験結果から, 教師付き, 少数ショット, ゼロショット設定下での最先端性能が得られた。
論文 参考訳(メタデータ) (2022-06-23T14:51:42Z) - Animal Kingdom: A Large and Diverse Dataset for Animal Behavior
Understanding [4.606145900630665]
大規模で多様なデータセットであるAnimal Kingdomを作成し、複数の注釈付きタスクを提供します。
私たちのデータセットには、関連する動物行動セグメントをローカライズする50時間のアノテーション付きビデオが含まれています。
本研究では,未確認新種動物を用いた行動認識の一般的な特徴と特定の特徴を学習する協調行動認識(CARe)モデルを提案する。
論文 参考訳(メタデータ) (2022-04-18T02:05:15Z) - Factors of Influence for Transfer Learning across Diverse Appearance
Domains and Task Types [50.1843146606122]
現在の最新のコンピュータビジョンモデルでは、簡単な転送学習が一般的です。
転校学習に関するこれまでの体系的な研究は限られており、作業が期待される状況は十分に理解されていない。
本論文では,非常に異なる画像領域にまたがる転送学習の広範な実験的研究を行う。
論文 参考訳(メタデータ) (2021-03-24T16:24:20Z) - Perspectives on individual animal identification from biology and
computer vision [58.81800919492064]
計算機科学者と生物学者の両方に利用可能なツールの概要を提供するコンピュータビジョン識別技術の最近の進歩を概観する。
動物識別プロジェクトを始めるための勧告を提示し、現在の限界を説明し、将来どのように対処されるかを提案する。
論文 参考訳(メタデータ) (2021-02-28T16:50:09Z) - Transferring Dense Pose to Proximal Animal Classes [83.84439508978126]
より一般的な対象検出器やセグメンタなどと同様に、密集したポーズ認識に存在する知識を、他のクラスにおける密集したポーズ認識の問題に移すことが可能であることを示す。
我々は、人間と幾何学的に整合した新しい動物のためのDensePoseモデルを確立することでこれを行う。
また、クラスチンパンジーにDensePoseの方法でラベル付けされた2つのベンチマークデータセットを導入し、アプローチを評価するためにそれらを使用します。
論文 参考訳(メタデータ) (2020-02-28T21:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。