論文の概要: AnimalMotionCLIP: Embedding motion in CLIP for Animal Behavior Analysis
- arxiv url: http://arxiv.org/abs/2505.00569v1
- Date: Wed, 30 Apr 2025 12:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.339882
- Title: AnimalMotionCLIP: Embedding motion in CLIP for Animal Behavior Analysis
- Title(参考訳): AnimalMotionCLIP : 動物行動解析のためのCLIPの埋め込み動作
- Authors: Enmin Zhong, Carlos R. del-Blanco, Daniel Berjón, Fernando Jaureguizar, Narciso García,
- Abstract要約: 本研究では,動作情報と効果的な時間的モデリング手法を統合することの課題を克服するために,AnimalMotionCLIPを提案する。
Animal Kingdomデータセットの実験では、AnimalMotionCLIPは最先端のアプローチよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 45.610770404198874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been a surge of interest in applying deep learning techniques to animal behavior recognition, particularly leveraging pre-trained visual language models, such as CLIP, due to their remarkable generalization capacity across various downstream tasks. However, adapting these models to the specific domain of animal behavior recognition presents two significant challenges: integrating motion information and devising an effective temporal modeling scheme. In this paper, we propose AnimalMotionCLIP to address these challenges by interleaving video frames and optical flow information in the CLIP framework. Additionally, several temporal modeling schemes using an aggregation of classifiers are proposed and compared: dense, semi dense, and sparse. As a result, fine temporal actions can be correctly recognized, which is of vital importance in animal behavior analysis. Experiments on the Animal Kingdom dataset demonstrate that AnimalMotionCLIP achieves superior performance compared to state-of-the-art approaches.
- Abstract(参考訳): 近年,動物行動認識に深層学習技術を適用すること,特にCLIPのような事前学習された視覚言語モデルを活用することへの関心が高まっている。
しかし、動物行動認識の特定の領域にこれらのモデルを適用することは、運動情報の統合と効果的な時間的モデリングスキームの考案という2つの大きな課題を提起する。
本稿では,CLIPフレームワークにおける映像フレームと光フロー情報をインターリーブすることで,これらの課題に対処するAnimalMotionCLIPを提案する。
さらに、分類器の集合を用いた時間的モデリングスキームが提案され、密度、半密度、スパースの比較を行う。
その結果、動物行動解析において極めて重要な、微妙な時間的行動が正しく認識される。
Animal Kingdomデータセットの実験では、AnimalMotionCLIPは最先端のアプローチよりも優れたパフォーマンスを実現している。
関連論文リスト
- GPT-4o: Visual perception performance of multimodal large language models in piglet activity understanding [2.79453284883108]
本研究では,動物行動認識における多モーダル大言語モデルの視覚知覚能力について検討した。
その結果,現在のマルチモーダルLLMでは意味的対応や時間知覚の改善が求められているが,動物行動認識の視覚的認識能力が実証された。
論文 参考訳(メタデータ) (2024-06-14T07:30:26Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - CNN-Based Action Recognition and Pose Estimation for Classifying Animal
Behavior from Videos: A Survey [0.0]
アクション認識(Action Recognition)は、1つ以上の被験者がトリミングされたビデオで行う活動の分類であり、多くの技術の基礎を形成する。
人間の行動認識のためのディープラーニングモデルは、過去10年間に進歩してきた。
近年,深層学習に基づく行動認識を取り入れた研究への関心が高まっている。
論文 参考訳(メタデータ) (2023-01-15T20:54:44Z) - In-situ animal behavior classification using knowledge distillation and
fixed-point quantization [6.649514998517633]
我々は、教師モデルとして残差ニューラルネットワーク(ResNet)として知られる、深く複雑な畳み込みニューラルネットワークを採用している。
我々は,開発したKDモデルについて,汎用の首輪および耳栓装置の組込みシステム上で,定量化および定量化の両バージョンを実装した。
論文 参考訳(メタデータ) (2022-09-09T06:07:17Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - CLAMP: Prompt-based Contrastive Learning for Connecting Language and
Animal Pose [70.59906971581192]
本稿では,言語とAniMal Poseを効果的に接続するための,新しいプロンプトベースのコントラスト学習手法を提案する。
CLAMPは、ネットワークトレーニング中にテキストプロンプトを動物のキーポイントに適応させることでギャップを埋めようとしている。
実験結果から, 教師付き, 少数ショット, ゼロショット設定下での最先端性能が得られた。
論文 参考訳(メタデータ) (2022-06-23T14:51:42Z) - SemiMultiPose: A Semi-supervised Multi-animal Pose Estimation Framework [10.523555645910255]
マルチアニマルポーズ推定は、神経科学と神経倫理学における動物の社会的行動を研究するために不可欠である。
ビヘイビアビデオにおけるラベルなしフレームの広範構造を利用して, マルチアニマルポーズ推定のための新しい半教師付きアーキテクチャを提案する。
得られたアルゴリズムは、3つの動物実験において優れたマルチアニマルポーズ推定結果を提供する。
論文 参考訳(メタデータ) (2022-04-14T16:06:55Z) - SuperAnimal pretrained pose estimation models for behavioral analysis [42.206265576708255]
行動の定量化は神経科学、獣医学、動物保護活動など様々な応用において重要である。
我々は、SuperAnimalと呼ばれる新しい手法で統一基盤モデルを開発するための一連の技術革新を提案する。
論文 参考訳(メタデータ) (2022-03-14T18:46:57Z) - Transferring Dense Pose to Proximal Animal Classes [83.84439508978126]
より一般的な対象検出器やセグメンタなどと同様に、密集したポーズ認識に存在する知識を、他のクラスにおける密集したポーズ認識の問題に移すことが可能であることを示す。
我々は、人間と幾何学的に整合した新しい動物のためのDensePoseモデルを確立することでこれを行う。
また、クラスチンパンジーにDensePoseの方法でラベル付けされた2つのベンチマークデータセットを導入し、アプローチを評価するためにそれらを使用します。
論文 参考訳(メタデータ) (2020-02-28T21:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。