論文の概要: DiffPose-Animal: A Language-Conditioned Diffusion Framework for Animal Pose Estimation
- arxiv url: http://arxiv.org/abs/2508.08783v1
- Date: Tue, 12 Aug 2025 09:37:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.367133
- Title: DiffPose-Animal: A Language-Conditioned Diffusion Framework for Animal Pose Estimation
- Title(参考訳): DiffPose-Animal:動物行動推定のための言語定義拡散フレームワーク
- Authors: Tianyu Xiong, Dayi Tan, Wei Tian,
- Abstract要約: DiffPose-Animalは,トップダウン動物ポーズ推定のための新しい拡散型フレームワークである。
従来の熱マップ回帰法とは異なり、DiffPose-Animal は拡散モデルの生成的枠組みの下でデノナイジング過程として推定する。
- 参考スコア(独自算出の注目度): 1.1708207558288541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animal pose estimation is a fundamental task in computer vision, with growing importance in ecological monitoring, behavioral analysis, and intelligent livestock management. Compared to human pose estimation, animal pose estimation is more challenging due to high interspecies morphological diversity, complex body structures, and limited annotated data. In this work, we introduce DiffPose-Animal, a novel diffusion-based framework for top-down animal pose estimation. Unlike traditional heatmap regression methods, DiffPose-Animal reformulates pose estimation as a denoising process under the generative framework of diffusion models. To enhance semantic guidance during keypoint generation, we leverage large language models (LLMs) to extract both global anatomical priors and local keypoint-wise semantics based on species-specific prompts. These textual priors are encoded and fused with image features via cross-attention modules to provide biologically meaningful constraints throughout the denoising process. Additionally, a diffusion-based keypoint decoder is designed to progressively refine pose predictions, improving robustness to occlusion and annotation sparsity. Extensive experiments on public animal pose datasets demonstrate the effectiveness and generalization capability of our method, especially under challenging scenarios with diverse species, cluttered backgrounds, and incomplete keypoints.
- Abstract(参考訳): 動物のポーズ推定はコンピュータビジョンにおける基本的な課題であり、生態モニタリング、行動分析、知的家畜管理において重要性が増している。
ヒトのポーズ推定と比較して、動物ポーズ推定は、高い種間形態的多様性、複雑な身体構造、限られた注釈付きデータにより困難である。
本研究では,トップダウン動物ポーズ推定のための新しい拡散型フレームワークであるDiffPose-Animalを紹介する。
従来の熱マップ回帰法とは異なり、DiffPose-Animal は拡散モデルの生成的枠組みの下でデノナイジング過程として推定する。
キーポイント生成における意味指導を強化するために,大言語モデル(LLM)を活用し,種特異的なプロンプトに基づいて,大域的解剖学的先行と局所的キーポイント的意味論の両方を抽出する。
これらのテキストプリエントは、認知プロセス全体を通して生物学的に意味のある制約を提供するために、クロスアテンションモジュールを介して画像特徴を符号化して融合する。
さらに、拡散ベースのキーポイントデコーダは、ポーズ予測を段階的に洗練し、オクルージョンに対する堅牢性とアノテーションの疎結合性を改善するように設計されている。
公開動物ポーズデータセットの大規模な実験により,本手法の有効性と一般化能力,特に多様な種,散在する背景,不完全なキーポイントによる挑戦シナリオ下での検証が可能となった。
関連論文リスト
- A Review on Coarse to Fine-Grained Animal Action Recognition [23.001797172183345]
動物行動認識の分野を概観し、粗粒(FGCG)と細粒(FGG)技術に注目した。
動物行動認識研究の現状を調べ、屋外環境における微妙な動物行動の認識に関連する固有の課題を解明する。
種間の行動分析の精度と一般化性を改善することを目的とした、きめ細かい行動認識の進歩に向けた今後の方向性を概説する。
論文 参考訳(メタデータ) (2025-06-01T23:31:25Z) - Categorical Keypoint Positional Embedding for Robust Animal Re-Identification [22.979350771097966]
動物再同定(ReID)は生態学研究において欠かせない道具となっている。
ヒトのReIDとは異なり、動物のポーズの多様性の高さ、環境条件の多様性、動物データに事前訓練されたモデルを直接適用できないことなど、動物ReIDは重大な課題に直面している。
本研究は,1つの注釈付き事前学習拡散モデルを用いたキーポイント伝搬機構を導入する。
論文 参考訳(メタデータ) (2024-12-01T14:09:00Z) - PoseBench: Benchmarking the Robustness of Pose Estimation Models under Corruptions [57.871692507044344]
ポース推定は、単眼画像を用いて人や動物の解剖学的キーポイントを正確に同定することを目的としている。
現在のモデルは一般的に、クリーンなデータに基づいてトレーニングされ、テストされる。
実世界の腐敗に対するポーズ推定モデルの堅牢性を評価するためのベンチマークであるPoseBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-20T14:40:17Z) - Denoising Diffusion Semantic Segmentation with Mask Prior Modeling [61.73352242029671]
本稿では,従来の識別的アプローチのセマンティックセグメンテーション品質を,デノナイズ拡散生成モデルでモデル化したマスクを用いて改善することを提案する。
市販セグメンタを用いた先行モデルの評価を行い,ADE20KとCityscapesの実験結果から,本手法が競争力のある定量的性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-02T17:47:01Z) - CLAMP: Prompt-based Contrastive Learning for Connecting Language and
Animal Pose [70.59906971581192]
本稿では,言語とAniMal Poseを効果的に接続するための,新しいプロンプトベースのコントラスト学習手法を提案する。
CLAMPは、ネットワークトレーニング中にテキストプロンプトを動物のキーポイントに適応させることでギャップを埋めようとしている。
実験結果から, 教師付き, 少数ショット, ゼロショット設定下での最先端性能が得られた。
論文 参考訳(メタデータ) (2022-06-23T14:51:42Z) - SemiMultiPose: A Semi-supervised Multi-animal Pose Estimation Framework [10.523555645910255]
マルチアニマルポーズ推定は、神経科学と神経倫理学における動物の社会的行動を研究するために不可欠である。
ビヘイビアビデオにおけるラベルなしフレームの広範構造を利用して, マルチアニマルポーズ推定のための新しい半教師付きアーキテクチャを提案する。
得られたアルゴリズムは、3つの動物実験において優れたマルチアニマルポーズ推定結果を提供する。
論文 参考訳(メタデータ) (2022-04-14T16:06:55Z) - SuperAnimal pretrained pose estimation models for behavioral analysis [42.206265576708255]
行動の定量化は神経科学、獣医学、動物保護活動など様々な応用において重要である。
我々は、SuperAnimalと呼ばれる新しい手法で統一基盤モデルを開発するための一連の技術革新を提案する。
論文 参考訳(メタデータ) (2022-03-14T18:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。