論文の概要: AniMer+: Unified Pose and Shape Estimation Across Mammalia and Aves via Family-Aware Transformer
- arxiv url: http://arxiv.org/abs/2508.00298v1
- Date: Fri, 01 Aug 2025 03:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.728528
- Title: AniMer+: Unified Pose and Shape Estimation Across Mammalia and Aves via Family-Aware Transformer
- Title(参考訳): AniMer+:家族対応変圧器による乳房と腹腔の統一ポッドと形状推定
- Authors: Jin Lyu, Liang An, Li Lin, Pujin Cheng, Yebin Liu, Xiaoying Tang,
- Abstract要約: スケーラブルなAniMerフレームワークの拡張バージョンであるAniMer+を紹介します。
AniMer+の重要なイノベーションは、その高容量、家族対応ビジョントランス(ViT)である。
CtrlAni3D for quadrupeds と CtrlAVES3D for birds の2つの大規模な合成データセットを生成した。
- 参考スコア(独自算出の注目度): 26.738709781346678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of foundation models, achieving a unified understanding of different dynamic objects through a single network has the potential to empower stronger spatial intelligence. Moreover, accurate estimation of animal pose and shape across diverse species is essential for quantitative analysis in biological research. However, this topic remains underexplored due to the limited network capacity of previous methods and the scarcity of comprehensive multi-species datasets. To address these limitations, we introduce AniMer+, an extended version of our scalable AniMer framework. In this paper, we focus on a unified approach for reconstructing mammals (mammalia) and birds (aves). A key innovation of AniMer+ is its high-capacity, family-aware Vision Transformer (ViT) incorporating a Mixture-of-Experts (MoE) design. Its architecture partitions network layers into taxa-specific components (for mammalia and aves) and taxa-shared components, enabling efficient learning of both distinct and common anatomical features within a single model. To overcome the critical shortage of 3D training data, especially for birds, we introduce a diffusion-based conditional image generation pipeline. This pipeline produces two large-scale synthetic datasets: CtrlAni3D for quadrupeds and CtrlAVES3D for birds. To note, CtrlAVES3D is the first large-scale, 3D-annotated dataset for birds, which is crucial for resolving single-view depth ambiguities. Trained on an aggregated collection of 41.3k mammalian and 12.4k avian images (combining real and synthetic data), our method demonstrates superior performance over existing approaches across a wide range of benchmarks, including the challenging out-of-domain Animal Kingdom dataset. Ablation studies confirm the effectiveness of both our novel network architecture and the generated synthetic datasets in enhancing real-world application performance.
- Abstract(参考訳): 基礎モデルの時代には、一つのネットワークを通して異なる動的物体の統一的な理解を達成することは、より強力な空間知能を増強する可能性がある。
さらに、生物研究において、多様な種の動物のポーズと形状の正確な推定は、定量分析に不可欠である。
しかし、従来の手法のネットワーク容量が限られていたことと、包括的な多種多様なデータセットが不足していたため、この話題は未解決のままである。
これらの制限に対処するために、スケーラブルなAniMerフレームワークの拡張バージョンであるAniMer+を紹介します。
本稿では,哺乳類 (哺乳類) と鳥類 (群集) を再構築するための統一的なアプローチに焦点を当てる。
AniMer+ の重要な革新は、Mixture-of-Experts (MoE) 設計を取り入れた、高容量でファミリー対応の Vision Transformer (ViT) である。
そのアーキテクチャは、ネットワーク層を分類特化成分(哺乳類や獣脚類)と分類共有成分に分割し、単一のモデル内で異なる、共通の解剖学的特徴の両方を効率的に学習することを可能にする。
特に鳥にとって重要な3Dトレーニングデータの不足を克服するために,拡散型条件付き画像生成パイプラインを導入する。
このパイプラインは2つの大規模な合成データセットを生成する:CtrlAni3D for quadrupedsとCtrlAVES3D for birdsである。
注意すべき点は、CtrlAVES3Dは鳥の大規模な3Dアノテーション付きデータセットとして初めてであり、単一視野の深さの曖昧さを解決するのに不可欠である。
41.3kの哺乳動物と12.4kの鳥類の画像(実データと合成データを組み合わせた)の集合的収集に基づいて、本手法は、ドメイン外動物王国のデータセットを含む幅広いベンチマークにおいて、既存のアプローチよりも優れたパフォーマンスを示す。
アブレーション研究は、我々の新しいネットワークアーキテクチャと生成された合成データセットの両方の有効性を実証し、実世界のアプリケーション性能を向上する。
関連論文リスト
- UAVTwin: Neural Digital Twins for UAVs using Gaussian Splatting [57.63613048492219]
UAVTwinは,無人航空機(UAV)に埋め込まれた下流モデルの訓練を行うための,実環境からデジタル双生児を作成する方法である。
これは、背景を再構築するための3Dガウススティング(3DGS)と、多様な外観と動作を複数のポーズで表示する制御可能な合成人間モデルを統合することで実現される。
論文 参考訳(メタデータ) (2025-04-02T22:17:30Z) - AP-CAP: Advancing High-Quality Data Synthesis for Animal Pose Estimation via a Controllable Image Generation Pipeline [26.509823105406088]
本稿では,動物ポーズ推定のための新しい制御可能な画像生成パイプライン,AP-CAPを提案する。
このパイプライン内では、期待されたポーズで画像を合成できるマルチモーダル動物画像生成モデルを導入する。
さらに, マルチソース表現を統合するモダリティ・フュージョン・アニマル画像合成戦略, 多様なポーズを動的に捉えるポス・アジャイメント・アニマル画像合成戦略, 視覚的セマンティック理解を強化するキャピオン・エンハンスメント・アニマル画像合成戦略の3つの革新的戦略を提案する。
論文 参考訳(メタデータ) (2025-04-01T03:28:29Z) - Multispecies Animal Re-ID Using a Large Community-Curated Dataset [0.19418036471925312]
我々は、49種、37K個体、および225K画像を含むデータセットを構築し、このデータを用いて、すべての種に対して単一の埋め込みネットワークをトレーニングする。
我々のモデルは、各種で個別に訓練されたモデルより一貫して優れており、トップ1の精度で平均12.5%向上している。
このモデルは、大規模な野生生物モニタリングシステムですでに60種以上で生産されている。
論文 参考訳(メタデータ) (2024-12-07T09:56:33Z) - AniMer: Animal Pose and Shape Estimation Using Family Aware Transformer [29.97192007630272]
本稿では,家族認識型トランスフォーマーを用いて動物のポーズと形状を推定するためにAniMerを提案する。
AniMerの重要な洞察は、高容量トランスフォーマーベースのバックボーンと、動物家族によるコントラスト学習スキームの統合である。
効果的なトレーニングには、利用可能な4つのデータセットを3Dまたは2Dラベルで集約します。
論文 参考訳(メタデータ) (2024-12-01T14:59:57Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Learning the 3D Fauna of the Web [70.01196719128912]
3D-Faunaは,100種以上の動物種を対象に,パンカテゴリーで変形可能な3D動物モデルを共同で学習する手法である。
動物モデリングにおける重要なボトルネックの1つは、トレーニングデータの可用性の制限である。
従来のカテゴリー固有の試みは,訓練画像に制限のある希少種への一般化に失敗することを示す。
論文 参考訳(メタデータ) (2024-01-04T18:32:48Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Domain Generalization via Ensemble Stacking for Face Presentation Attack
Detection [4.61143637299349]
顔提示攻撃検出(PAD)は、偽造攻撃に対する顔認識システムを保護する上で重要な役割を担っている。
本研究では,合成データ生成と深層アンサンブル学習を組み合わせた包括的ソリューションを提案する。
4つのデータセットに対する実験結果は、3つのベンチマークデータセット上でのHTER(low half total error rate)を示す。
論文 参考訳(メタデータ) (2023-01-05T16:44:36Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - Coarse-to-fine Animal Pose and Shape Estimation [67.39635503744395]
単一画像から3次元動物メッシュを再構成する粗大なアプローチを提案する。
粗い推定段階はまずSMALモデルのポーズ、形状、翻訳パラメータを推定する。
次に、推定メッシュをグラフ畳み込みネットワーク(GCN)によって開始点として使用し、精製段階における頂点毎の変形を予測する。
論文 参考訳(メタデータ) (2021-11-16T01:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。