論文の概要: Learning Keypoints for Multi-Agent Behavior Analysis using Self-Supervision
- arxiv url: http://arxiv.org/abs/2409.09455v1
- Date: Sat, 14 Sep 2024 14:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 20:37:27.434497
- Title: Learning Keypoints for Multi-Agent Behavior Analysis using Self-Supervision
- Title(参考訳): 自己スーパービジョンを用いたマルチエージェント行動分析のための学習キーポイント
- Authors: Daniel Khalil, Christina Liu, Pietro Perona, Jennifer J. Sun, Markus Marks,
- Abstract要約: B-KinD-multiは、事前訓練されたビデオセグメンテーションモデルを利用して、マルチエージェントシナリオにおけるキーポイント発見をガイドする新しいアプローチである。
大規模な評価では、ハエ、マウス、ラットのビデオにおけるキーポイント回帰と下流行動分類が改善された。
我々の方法は、アリ、ミツバチ、人間を含む他の種によく一般化する。
- 参考スコア(独自算出の注目度): 15.308050177798453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study of social interactions and collective behaviors through multi-agent video analysis is crucial in biology. While self-supervised keypoint discovery has emerged as a promising solution to reduce the need for manual keypoint annotations, existing methods often struggle with videos containing multiple interacting agents, especially those of the same species and color. To address this, we introduce B-KinD-multi, a novel approach that leverages pre-trained video segmentation models to guide keypoint discovery in multi-agent scenarios. This eliminates the need for time-consuming manual annotations on new experimental settings and organisms. Extensive evaluations demonstrate improved keypoint regression and downstream behavioral classification in videos of flies, mice, and rats. Furthermore, our method generalizes well to other species, including ants, bees, and humans, highlighting its potential for broad applications in automated keypoint annotation for multi-agent behavior analysis. Code available under: https://danielpkhalil.github.io/B-KinD-Multi
- Abstract(参考訳): 多エージェントビデオ分析による社会的相互作用と集団行動の研究は生物学において重要である。
自己監督型キーポイント発見は手動のキーポイントアノテーションの必要性を減らすための有望な解決策として現れてきたが、既存の手法は複数の相互作用するエージェント、特に同じ種と色を含むビデオにしばしば苦労している。
そこで本研究では,B-KinD-multiという,事前学習したビデオセグメンテーションモデルを用いて,マルチエージェントシナリオにおけるキーポイント発見のガイドを行う手法を提案する。
これにより、新しい実験的な設定や生物に関する手作業によるアノテーションが不要になる。
大規模な評価では、ハエ、マウス、ラットのビデオにおいて、キーポイントの回帰と下流の行動分類が改善された。
さらに,本手法は,アリ,ミツバチ,ヒトなどの他の種によく適応し,マルチエージェント行動解析のための自動キーポイントアノテーションの幅広い応用の可能性を強調した。
https://danielpkhalil.github.io/B-KinD-Multi
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Automated Behavioral Analysis Using Instance Segmentation [2.043437148047176]
動物行動分析は、生命科学や生物医学研究など、様々な分野で重要な役割を果たしている。
利用可能なデータの不足とラベル付きデータセットの大量取得に伴う高コストが大きな課題となっている。
本稿では,これらの問題に対処するために,インスタンスセグメンテーションに基づくトランスファー学習を活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T20:36:36Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - SuperAnimal pretrained pose estimation models for behavioral analysis [42.206265576708255]
行動の定量化は神経科学、獣医学、動物保護活動など様々な応用において重要である。
我々は、SuperAnimalと呼ばれる新しい手法で統一基盤モデルを開発するための一連の技術革新を提案する。
論文 参考訳(メタデータ) (2022-03-14T18:46:57Z) - Self-Supervised Keypoint Discovery in Behavioral Videos [37.367739727481016]
本研究では, エージェントの姿勢と構造を, 乱れのない行動ビデオから学習する手法を提案する。
本手法では,ビデオフレーム間の差分を再構成するために,幾何的ボトルネックを持つエンコーダデコーダアーキテクチャを用いる。
動作領域のみに焦点をあてることで,手動のアノテーションを必要とせずに直接入力ビデオに焦点をあてる。
論文 参考訳(メタデータ) (2021-12-09T18:55:53Z) - Overcoming the Domain Gap in Neural Action Representations [60.47807856873544]
3Dポーズデータは、手動で介入することなく、マルチビュービデオシーケンスから確実に抽出できる。
本稿では,ニューラルアクション表現の符号化を,ニューラルアクションと行動拡張のセットと共に導くために使用することを提案する。
ドメインギャップを減らすために、トレーニングの間、同様の行動をしているように見える動物間で神経と行動のデータを取り替える。
論文 参考訳(メタデータ) (2021-12-02T12:45:46Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Time-series Imputation of Temporally-occluded Multiagent Trajectories [18.862173210927658]
エージェントのサブセットの過去と将来の観測が、他のエージェントの欠落した観察を推定するために使用される、マルチエージェントの時系列計算の問題について検討する。
グラフインプタ(Graph Imputer)と呼ばれる我々の手法は,グラフネットワークと変分オートエンコーダを組み合わせた前方情報と後方情報を利用する。
提案手法は,プロジェクティブカメラモジュールを用いて,オフスクリーンプレーヤの状態推定設定のためのモデルをトレーニングし,評価する。
論文 参考訳(メタデータ) (2021-06-08T09:58:43Z) - Muti-view Mouse Social Behaviour Recognition with Deep Graphical Model [124.26611454540813]
マウスの社会的行動分析は神経変性疾患の治療効果を評価する貴重なツールである。
マウスの社会行動の豊かな記述を創出する可能性から、ネズミの観察にマルチビュービデオ記録を使用することは、ますます注目を集めている。
本稿では,ビュー固有のサブ構造とビュー共有サブ構造を協調的に学習する,新しい多視点潜在意識・動的識別モデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T18:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。