論文の概要: ChimpVLM: Ethogram-Enhanced Chimpanzee Behaviour Recognition
- arxiv url: http://arxiv.org/abs/2404.08937v1
- Date: Sat, 13 Apr 2024 09:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:03:29.210127
- Title: ChimpVLM: Ethogram-Enhanced Chimpanzee Behaviour Recognition
- Title(参考訳): ChimpVLM:Ethogram-Enhanced Chimpanzee Behaviour Recognition
- Authors: Otto Brookes, Majid Mirmehdi, Hjalmar Kuhl, Tilo Burghardt,
- Abstract要約: 本稿では,カメラトラップ映像から直接抽出した視覚特徴のマルチモーダルデコードを利用する視覚言語モデルを提案する。
我々はPanAf500とPanAf20Kのデータセットを用いてシステムを評価する。
トップ1の精度で視覚モデルと視覚言語モデルに対して最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 5.253376886484742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that chimpanzee behaviour understanding from camera traps can be enhanced by providing visual architectures with access to an embedding of text descriptions that detail species behaviours. In particular, we present a vision-language model which employs multi-modal decoding of visual features extracted directly from camera trap videos to process query tokens representing behaviours and output class predictions. Query tokens are initialised using a standardised ethogram of chimpanzee behaviour, rather than using random or name-based initialisations. In addition, the effect of initialising query tokens using a masked language model fine-tuned on a text corpus of known behavioural patterns is explored. We evaluate our system on the PanAf500 and PanAf20K datasets and demonstrate the performance benefits of our multi-modal decoding approach and query initialisation strategy on multi-class and multi-label recognition tasks, respectively. Results and ablations corroborate performance improvements. We achieve state-of-the-art performance over vision and vision-language models in top-1 accuracy (+6.34%) on PanAf500 and overall (+1.1%) and tail-class (+2.26%) mean average precision on PanAf20K. We share complete source code and network weights for full reproducibility of results and easy utilisation.
- Abstract(参考訳): カメラトラップからのチンパンジーの行動理解は、種行動の詳細を詳述するテキスト記述の埋め込みにアクセスできる視覚的アーキテクチャを提供することで、向上できることを示す。
特に,カメラトラップビデオから直接抽出した視覚特徴のマルチモーダルデコードを利用して,動作を表すクエリトークンとクラス予測の出力を行う視覚言語モデルを提案する。
クエリトークンは、ランダムまたは名前ベースの初期化ではなく、チンパンジーの振る舞いの標準化されたエトグラムを使用して初期化される。
さらに、既知の行動パターンのテキストコーパスに微調整されたマスク付き言語モデルを用いたクエリトークンの初期化の効果について検討した。
そこで我々は,PanAf500とPanAf20Kのデータセット上でシステム評価を行い,マルチモーダルデコード手法とマルチクラスおよびマルチラベル認識タスクにおけるクエリ初期化戦略の性能評価を行った。
結果と改善によってパフォーマンスが向上する。
我々は、PanAf500および全体(+1.1%)およびテールクラス(+2.26%)で、PanAf20Kの平均精度において、トップ1の精度(+6.34%)で、ビジョンとビジョン言語モデルに対する最先端のパフォーマンスを達成する。
完全なソースコードとネットワークの重みを共有して、結果の完全な再現性と容易な利用を可能にします。
関連論文リスト
- From Forest to Zoo: Great Ape Behavior Recognition with ChimpBehave [0.0]
ChimpBehaveは動物園で飼育されているチンパンジーの2時間以上のビデオ(約193,000フレーム)を特徴とする新しいデータセットだ。
ChimpBehaveは、アクション認識のためのバウンディングボックスやビヘイビアラベルに細心の注意を払ってアノテートする。
我々は、最先端のCNNベースの行動認識モデルを用いてデータセットをベンチマークする。
論文 参考訳(メタデータ) (2024-05-30T13:11:08Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Triple-stream Deep Metric Learning of Great Ape Behavioural Actions [3.8820728151341717]
本研究では,類人猿の行動行動認識のための最初の計量学習システムを提案する。
提案する3重ストリーム埋め込みアーキテクチャは、野生で直接撮影されたカメラトラップビデオで動作する。
論文 参考訳(メタデータ) (2023-01-06T18:36:04Z) - Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。
本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。
我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
論文 参考訳(メタデータ) (2022-08-04T17:59:54Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。