論文の概要: FSMC-Pose: Frequency and Spatial Fusion with Multiscale Self-calibration for Cattle Mounting Pose Estimation
- arxiv url: http://arxiv.org/abs/2603.16596v1
- Date: Tue, 17 Mar 2026 14:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.347355
- Title: FSMC-Pose: Frequency and Spatial Fusion with Multiscale Self-calibration for Cattle Mounting Pose Estimation
- Title(参考訳): FSMC-Pose:マルチスケール自己校正による牛馬場推定のための周波数・空間融合
- Authors: Fangjing Li, Zhihai Wang, Xinxin Ding, Haiyang Liu, Ronghua Gao, Rong Wang, Yao Zhu, Ming Jin,
- Abstract要約: 乗馬姿勢は乳牛のエストロスを視覚的に表す重要な指標である。
本稿では,軽量な周波数空間バックボーンであるCattleMountNetと,大規模自己校正ヘッドであるSC2Headを統合したFSMC-Poseを提案する。
FSMC-Poseは複雑な環境下での牛の姿勢を効果的に把握し,推定する。
- 参考スコア(独自算出の注目度): 27.324966368385773
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mounting posture is an important visual indicator of estrus in dairy cattle. However, achieving reliable mounting pose estimation in real-world environments remains challenging due to cluttered backgrounds and frequent inter-animal occlusion. We present FSMC-Pose, a top-down framework that integrates a lightweight frequency-spatial fusion backbone, CattleMountNet, and a multiscale self-calibration head, SC2Head. Specifically, we design two algorithmic components for CattleMountNet: the Spatial Frequency Enhancement Block (SFEBlock) and the Receptive Aggregation Block (RABlock). SFEBlock separates cattle from cluttered backgrounds, while RABlock captures multiscale contextual information. The Spatial-Channel Self-Calibration Head (SC2Head) attends to spatial and channel dependencies and introduces a self-calibration branch to mitigate structural misalignment under inter-animal overlap. We construct a mounting dataset, MOUNT-Cattle, covering 1176 mounting instances, which follows the COCO format and supports drop-in training across pose estimation models. Using a comprehensive dataset that combines MOUNT-Cattle with the public NWAFU-Cattle dataset, FSMC-Pose achieves higher accuracy than strong baselines, with markedly lower computational and parameter costs, while maintaining real-time inference on commodity GPUs. Extensive experiments and qualitative analyses show that FSMC-Pose effectively captures and estimates cattle mounting pose in complex and cluttered environments. Dataset and code are available at https://github.com/elianafang/FSMC-Pose.
- Abstract(参考訳): 乗馬姿勢は乳牛のエストロスを視覚的に表す重要な指標である。
しかし, 背景が散らばり, 動物間閉塞が頻発しているため, 実世界の環境において, 信頼性の高いポーズ推定を実現することは依然として困難である。
本稿では,軽量な周波数空間融合バックボーンであるCattleMountNetと,大規模自己校正ヘッドであるSC2Headを統合したトップダウンフレームワークFSMC-Poseを紹介する。
具体的には、CattleMountNetのための2つのアルゴリズムコンポーネント、空間周波数拡張ブロック(SFEBlock)と受容集約ブロック(RABlock)を設計する。
SFEBlockは牛を乱雑な背景から切り離し、RABlockはマルチスケールのコンテキスト情報をキャプチャする。
Space-Channel Self-Calibration Head (SC2Head) は、空間的およびチャネル的依存関係に参画し、アニマル間重なりの下で構造的不整合を軽減する自己校正分岐を導入する。
我々は、COCOフォーマットに従い、ポーズ推定モデル全体でドロップイントレーニングをサポートする1176インスタンスをカバーする実装データセットMOUNT-Cattleを構築した。
MOUNT-CattleとパブリックなNWAFU-Cattleデータセットを組み合わせた包括的なデータセットを使用することで、FSMC-Poseは強力なベースラインよりも高い精度を実現し、計算コストとパラメータコストを著しく低減し、コモディティGPUのリアルタイム推論を維持している。
大規模な実験と定性的分析により、FSMC-Poseは複雑で散在した環境下での牛の装着効果を効果的に捉え、推定することを示した。
データセットとコードはhttps://github.com/elianafang/FSMC-Pose.comで入手できる。
関連論文リスト
- TopSeg: A Multi-Scale Topological Framework for Data-Efficient Heart Sound Segmentation [12.42019711058722]
TopSegは、マルチスケールのトポロジ的特徴を持つPCGダイナミクスをエンコードする表現中心のフレームワークである。
被験者レベルのサブサンプリングでPhyloNet 2016データセットのみをトレーニングし、CirCorデータセット上で外部バリデーションを実行します。
結果から,TopSegはデータ効率,クロスデータセットPCGセグメンテーションに強い帰納バイアスを与えることがわかった。
論文 参考訳(メタデータ) (2025-10-20T09:43:39Z) - PoseGRAF: Geometric-Reinforced Adaptive Fusion for Monocular 3D Human Pose Estimation [5.223657684081615]
既存の単眼的な3次元ポーズ推定法は, 骨格の内在方向と角方向の相関性を見越しながら, 関節位置の特徴に依存している。
これらの課題に対処するためのPoseGRAFフレームワークを提案する。
Human3.6M と MPI-INF-3DHP のデータセットによる実験結果から,本手法が最先端の手法を超えることが示された。
論文 参考訳(メタデータ) (2025-06-17T14:59:56Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - FCPose: Fully Convolutional Multi-Person Pose Estimation with Dynamic
Instance-Aware Convolutions [96.72601574462549]
本稿では,FCPoseと呼ばれる動的インスタンス認識の畳み込みを用いた,完全畳み込み型多人数ポーズ推定フレームワークを提案する。
FCPoseは、動的インスタンス認識キーポイント推定ヘッドによるROIとグループ化後処理を廃止する。
実験の結果,FCPoseはシンプルだが効果的な多人数ポーズ推定フレームワークであることがわかった。
論文 参考訳(メタデータ) (2021-05-29T03:24:59Z) - Multi-Person Pose Estimation with Enhanced Feature Aggregation and
Selection [33.15192824888279]
複数人物のポーズ推定のためのEFASNet(Enhanced Feature Aggregation and Selection Network)を提案する。
我々の手法は、混み合った、散らばった、ぎこちないシーンをうまく扱える。
総合的な実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-20T08:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。