論文の概要: PriVi: Towards A General-Purpose Video Model For Primate Behavior In The Wild
- arxiv url: http://arxiv.org/abs/2511.09675v2
- Date: Sat, 15 Nov 2025 09:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.395077
- Title: PriVi: Towards A General-Purpose Video Model For Primate Behavior In The Wild
- Title(参考訳): PriVi: 野生のプリメート行動のための汎用ビデオモデル
- Authors: Felix B. Mueller, Jan F. Meier, Timo Lueddecke, Richard Vogg, Roger L. Freixanet, Valentin Hassler, Tiffany Bosshard, Elif Karakoc, William J. O'Hearn, Sofia M. Pereira, Sandro Sehner, Kaja Wierucka, Judith Burkart, Claudia Fichtel, Julia Fischer, Alexander Gail, Catherine Hobaiter, Julia Ostner, Liran Samuni, Oliver Schülke, Neda Shahidi, Erin G. Wessling, Alexander S. Ecker,
- Abstract要約: 大規模な霊長類中心のビデオ事前トレーニングデータセットであるPriViを紹介する。
大規模ビデオモデルであるV-JEPAをPriVi上でプレトレーニングし、霊長類固有の表現を学習する。
その結果、霊長類中心の事前学習はデータ効率と一般化を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 50.656578456979496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-human primates are our closest living relatives, and analyzing their behavior is central to research in cognition, evolution, and conservation. Computer vision could greatly aid this research, but existing methods often rely on human-centric pretrained models and focus on single datasets, which limits generalization. We address this limitation by shifting from a model-centric to a data-centric approach and introduce PriVi, a large-scale primate-centric video pretraining dataset. PriVi contains 424 hours of curated video, combining 174 hours from behavioral research across 11 settings with 250 hours of diverse web-sourced footage, assembled through a scalable data curation pipeline. We pretrain V-JEPA, a large-scale video model, on PriVi to learn primate-specific representations and evaluate it using a lightweight frozen classifier. Across four benchmark datasets, ChimpACT, BaboonLand, PanAf500, and ChimpBehave, our approach consistently outperforms prior work, including fully finetuned baselines, and scales favorably with fewer labels. These results demonstrate that primate-centric pretraining substantially improves data efficiency and generalization, making it a promising approach for low-label applications. Code, models, and the majority of the dataset will be made available.
- Abstract(参考訳): 非ヒト霊長類は我々の最も近い親類であり、その行動を分析することは認知、進化、保存の研究の中心である。
コンピュータビジョンはこの研究に大いに役立つかもしれないが、既存の手法は人間中心の事前訓練されたモデルに頼り、一般化を制限する単一のデータセットにフォーカスすることが多い。
モデル中心のアプローチからデータ中心のアプローチに移行し、大規模な霊長類中心のビデオ事前トレーニングデータセットであるPriViを導入することで、この制限に対処する。
PriViには、424時間のキュレートされたビデオが含まれており、11のセッティングにわたる行動調査から174時間と、スケーラブルなデータキュレーションパイプラインを通じて組み立てられた250時間の多様なWebソースの映像を組み合わせている。
大規模ビデオモデルであるV-JEPAをPriVi上でプレトレーニングし、プリレート固有の表現を学習し、軽量なフリーズ分類器を用いて評価する。
ChimpACT、BaboonLand、PanAf500、ChmpBehaveの4つのベンチマークデータセットに対して、当社のアプローチは、完全に微調整されたベースラインを含む従来の作業よりも一貫して優れており、ラベルの少ないスケールが好適です。
これらの結果は、霊長類中心の事前学習がデータ効率と一般化を大幅に改善し、低ラベルアプリケーションにとって有望なアプローチであることを示している。
コード、モデル、ほとんどのデータセットが利用可能になる。
関連論文リスト
- Domain-Adaptive Pretraining Improves Primate Behavior Recognition [43.65707056647872]
我々は,自己指導型学習を用いて霊長類行動に対する行動認識を大幅に改善できることを示す。
PanAf と ChimpACT の2つの大きな類人猿行動のデータセットでは, それぞれ6.1 %の精度と6.3 %のmAPの精度で, 最先端の行動認識モデルより優れていた。
論文 参考訳(メタデータ) (2025-09-15T17:54:20Z) - Towards Adaptive Human-centric Video Anomaly Detection: A Comprehensive Framework and A New Benchmark [2.473948454680334]
人間中心型ビデオ異常検出(VAD)は、正常から逸脱する人間の行動を特定することを目的としている。
本稿では,Human-centric privacy-enhanced Video Anomaly Detection(Human-centric privacy-enhanced Video Anomaly Detection)データセットと,新しい教師なし連続異常学習フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-08-26T14:55:23Z) - From Forest to Zoo: Great Ape Behavior Recognition with ChimpBehave [0.0]
ChimpBehaveは動物園で飼育されているチンパンジーの2時間以上のビデオ(約193,000フレーム)を特徴とする新しいデータセットだ。
ChimpBehaveは、アクション認識のためのバウンディングボックスやビヘイビアラベルに細心の注意を払ってアノテートする。
我々は、最先端のCNNベースの行動認識モデルを用いてデータセットをベンチマークする。
論文 参考訳(メタデータ) (2024-05-30T13:11:08Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - CVB: A Video Dataset of Cattle Visual Behaviors [13.233877352490923]
牛の行動認識のための既存のデータセットは、ほとんど小さく、明確に定義されたラベルがないか、非現実的な制御環境で収集される。
キャトル・ビジュアル・ビヘイビアス (CVB) と呼ばれる新しいデータセットを導入し、502本のビデオクリップを15秒毎に撮影し、自然の照明条件で撮影し、11種類の視覚的に知覚できる牛の行動に注釈を付ける。
論文 参考訳(メタデータ) (2023-05-26T00:44:11Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - SuperAnimal pretrained pose estimation models for behavioral analysis [42.206265576708255]
行動の定量化は神経科学、獣医学、動物保護活動など様々な応用において重要である。
我々は、SuperAnimalと呼ばれる新しい手法で統一基盤モデルを開発するための一連の技術革新を提案する。
論文 参考訳(メタデータ) (2022-03-14T18:46:57Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。