論文の概要: AniMer: Animal Pose and Shape Estimation Using Family Aware Transformer
- arxiv url: http://arxiv.org/abs/2412.00837v1
- Date: Sun, 01 Dec 2024 14:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:37.613098
- Title: AniMer: Animal Pose and Shape Estimation Using Family Aware Transformer
- Title(参考訳): AniMer:家族認識変換器を用いた動物行動と形状推定
- Authors: Jin Lyu, Tianyi Zhu, Yi Gu, Li Lin, Pujin Cheng, Yebin Liu, Xiaoying Tang, Liang An,
- Abstract要約: 本稿では,家族認識型トランスフォーマーを用いて動物のポーズと形状を推定するためにAniMerを提案する。
AniMerの重要な洞察は、高容量トランスフォーマーベースのバックボーンと、動物家族によるコントラスト学習スキームの統合である。
効果的なトレーニングには、利用可能な4つのデータセットを3Dまたは2Dラベルで集約します。
- 参考スコア(独自算出の注目度): 29.97192007630272
- License:
- Abstract: Quantitative analysis of animal behavior and biomechanics requires accurate animal pose and shape estimation across species, and is important for animal welfare and biological research. However, the small network capacity of previous methods and limited multi-species dataset leave this problem underexplored. To this end, this paper presents AniMer to estimate animal pose and shape using family aware Transformer, enhancing the reconstruction accuracy of diverse quadrupedal families. A key insight of AniMer is its integration of a high-capacity Transformer-based backbone and an animal family supervised contrastive learning scheme, unifying the discriminative understanding of various quadrupedal shapes within a single framework. For effective training, we aggregate most available open-sourced quadrupedal datasets, either with 3D or 2D labels. To improve the diversity of 3D labeled data, we introduce CtrlAni3D, a novel large-scale synthetic dataset created through a new diffusion-based conditional image generation pipeline. CtrlAni3D consists of about 10k images with pixel-aligned SMAL labels. In total, we obtain 41.3k annotated images for training and validation. Consequently, the combination of a family aware Transformer network and an expansive dataset enables AniMer to outperform existing methods not only on 3D datasets like Animal3D and CtrlAni3D, but also on out-of-distribution Animal Kingdom dataset. Ablation studies further demonstrate the effectiveness of our network design and CtrlAni3D in enhancing the performance of AniMer for in-the-wild applications. The project page of AniMer is https://luoxue-star.github.io/AniMer_project_page/.
- Abstract(参考訳): 動物の行動と生体力学の定量的分析は、動物種間での正確なポーズと形状推定を必要とし、動物福祉と生物研究にとって重要である。
しかし、従来の手法と限られた多種多様なデータセットのネットワーク容量は、この問題を過小評価している。
そこで本稿では,AniMerを用いて,家族認識トランスフォーマーを用いて動物のポーズと形状を推定し,多種多様な四面体家族の復元精度を高めることを提案する。
AniMerの重要な洞察は、高容量トランスフォーマーベースのバックボーンと動物家族によるコントラスト学習スキームの統合である。
効果的なトレーニングには、利用可能な4つのデータセットを3Dまたは2Dラベルで集約します。
CtrlAni3Dは,新しい拡散型条件付き画像生成パイプラインによって生成される,新しい大規模合成データセットである。
CtrlAni3Dは、約10kの画像とピクセル配列のSMALラベルで構成されている。
合計41.3kのアノテート画像が得られた。
その結果、家族認識トランスフォーマーネットワークと拡張データセットの組み合わせにより、AniMerは、Animal3DやCtrlAni3Dといった3Dデータセットだけでなく、アウトオブディストリビューションのAnimal Kingdomデータセットでも、既存のメソッドよりも優れています。
AniMerの性能向上におけるネットワーク設計とCtrlAni3Dの有効性をさらに実証する。
AniMerのプロジェクトページはhttps://luoxue-star.github.io/AniMer_project_page/である。
関連論文リスト
- Generative Zoo [41.65977386204797]
各種の哺乳類の四足動物に対して多様なポーズと形状の集合をサンプリングするパイプラインを導入し,それに対応する接地トルースポーズと形状パラメータを用いたリアルな画像を生成する。
我々はGenZoo上で3Dポーズと形状回帰器を訓練し、実際の動物のポーズと形状推定ベンチマーク上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-11T04:57:53Z) - Multispecies Animal Re-ID Using a Large Community-Curated Dataset [0.19418036471925312]
我々は、49種、37K個体、および225K画像を含むデータセットを構築し、このデータを用いて、すべての種に対して単一の埋め込みネットワークをトレーニングする。
我々のモデルは、各種で個別に訓練されたモデルより一貫して優れており、トップ1の精度で平均12.5%向上している。
このモデルは、大規模な野生生物モニタリングシステムですでに60種以上で生産されている。
論文 参考訳(メタデータ) (2024-12-07T09:56:33Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Learning the 3D Fauna of the Web [70.01196719128912]
3D-Faunaは,100種以上の動物種を対象に,パンカテゴリーで変形可能な3D動物モデルを共同で学習する手法である。
動物モデリングにおける重要なボトルネックの1つは、トレーニングデータの可用性の制限である。
従来のカテゴリー固有の試みは,訓練画像に制限のある希少種への一般化に失敗することを示す。
論文 参考訳(メタデータ) (2024-01-04T18:32:48Z) - Virtual Pets: Animatable Animal Generation in 3D Scenes [84.0990909455833]
仮想ペット(Virtual Pet)は、3次元環境下での標的動物種に対する現実的で多様な動きをモデル化するための新しいパイプラインである。
我々はモノクロインターネットビデオを活用し、背景と背景の静的なNeRF表現に対して変形可能なNeRF表現を抽出する。
我々は,種レベルの共有テンプレート学習とビデオ毎の微調整を含む再構築戦略を開発する。
論文 参考訳(メタデータ) (2023-12-21T18:59:30Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - Prior-Aware Synthetic Data to the Rescue: Animal Pose Estimation with
Very Limited Real Data [18.06492246414256]
そこで本研究では,対象動物からの実際の画像のみを必要とする四足歩行におけるポーズ推定のためのデータ効率のよい戦略を提案する。
ImageNetのような一般的な画像データセットに事前トレーニングされた重み付きバックボーンネットワークを微調整することで、ターゲット動物のポーズデータに対する高い需要を軽減できることが確認された。
そこで我々はPASynと呼ばれる先行認識型合成動物データ生成パイプラインを導入し,ロバストポーズ推定に不可欠な動物のポーズデータを増やした。
論文 参考訳(メタデータ) (2022-08-30T01:17:50Z) - Towards Individual Grevy's Zebra Identification via Deep 3D Fitting and
Metric Learning [2.004276260443012]
本稿では,1つのパイプラインにおける種検出,3次元モデルフィッティング,およびメートル法学習の深層学習技術を組み合わせて,個体識別を行う。
SMALSTデータセットの小さな研究で、3Dモデルフィッティングの使用は確かに性能に有益であることを示す。
3D装着モデルのバックプロジェクションテクスチャは、2Dバウンディングボックスアプローチと比較して識別精度を48.0%から56.8%に改善した。
論文 参考訳(メタデータ) (2022-06-05T20:44:54Z) - Coarse-to-fine Animal Pose and Shape Estimation [67.39635503744395]
単一画像から3次元動物メッシュを再構成する粗大なアプローチを提案する。
粗い推定段階はまずSMALモデルのポーズ、形状、翻訳パラメータを推定する。
次に、推定メッシュをグラフ畳み込みネットワーク(GCN)によって開始点として使用し、精製段階における頂点毎の変形を予測する。
論文 参考訳(メタデータ) (2021-11-16T01:27:20Z) - AcinoSet: A 3D Pose Estimation Dataset and Baseline Models for Cheetahs
in the Wild [51.35013619649463]
我々はAcinoSetと呼ばれる野生のフリーランニングチーターの広範なデータセットを提示する。
データセットには、119,490フレームのマルチビュー同期高速ビデオ映像、カメラキャリブレーションファイル、7,588フレームが含まれている。
また、結果の3D軌道、人間チェックされた3D地上真実、およびデータを検査するインタラクティブツールも提供される。
論文 参考訳(メタデータ) (2021-03-24T15:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。