論文の概要: UnCageNet: Tracking and Pose Estimation of Caged Animal
- arxiv url: http://arxiv.org/abs/2512.07712v2
- Date: Tue, 16 Dec 2025 12:47:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.89855
- Title: UnCageNet: Tracking and Pose Estimation of Caged Animal
- Title(参考訳): UnCageNet: 飼育動物の追跡と行動推定
- Authors: Sayak Dutta, Harish Katti, Shashikant Verma, Shanmuganathan Raman,
- Abstract要約: STEPとViTPoseのポーズ推定システムは、ケージ構造とシステマティックオクルージョンを持つ画像を処理する際に、かなりの性能低下を経験する。
本稿では,(1)調整可能な配向フィルタを用いたGabor-enhanced ResNet-UNetアーキテクチャを用いたケージセグメンテーション,(2)隠蔽領域のコンテンツ認識再構築のためのCRFillを用いたケージインペインティング,(3)アンケージフレームにおけるポーズ推定とトラッキングの評価を行う3段階前処理パイプラインを提案する。
- 参考スコア(独自算出の注目度): 11.052590702493843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Animal tracking and pose estimation systems, such as STEP (Simultaneous Tracking and Pose Estimation) and ViTPose, experience substantial performance drops when processing images and videos with cage structures and systematic occlusions. We present a three-stage preprocessing pipeline that addresses this limitation through: (1) cage segmentation using a Gabor-enhanced ResNet-UNet architecture with tunable orientation filters, (2) cage inpainting using CRFill for content-aware reconstruction of occluded regions, and (3) evaluation of pose estimation and tracking on the uncaged frames. Our Gabor-enhanced segmentation model leverages orientation-aware features with 72 directional kernels to accurately identify and segment cage structures that severely impair the performance of existing methods. Experimental validation demonstrates that removing cage occlusions through our pipeline enables pose estimation and tracking performance comparable to that in environments without occlusions. We also observe significant improvements in keypoint detection accuracy and trajectory consistency.
- Abstract(参考訳): STEP(Simultaneous Tracking and Pose Estimation)やViTPose(英語版)のような動物追跡とポーズ推定システムでは、ケージ構造とシステマティックオクルージョンを持つ画像やビデオを処理する際に、かなりのパフォーマンス低下を経験する。
本稿では,(1)調整可能な配向フィルタを用いたGabor-enhanced ResNet-UNetアーキテクチャを用いたケージセグメンテーション,(2)隠蔽領域のコンテンツ認識再構築のためのCRFillを用いたケージインペインティング,(3)アンケージフレームにおけるポーズ推定とトラッキングの評価を行う3段階前処理パイプラインを提案する。
我々のGabor拡張セグメンテーションモデルは、72の方向性カーネルを持つ配向認識機能を利用して、既存の手法の性能を著しく損なうケージ構造を正確に識別し、セグメント化する。
実験的な検証では、パイプラインを通じてケージの閉塞を取り除くことで、閉塞のない環境でのものと同等のパフォーマンスのポーズ推定と追跡が可能になる。
また,キーポイント検出精度と軌道の整合性に大きな改善が見られた。
関連論文リスト
- An uncertainty-aware framework for data-efficient multi-view animal pose estimation [6.170832745769275]
科学的研究における動物行動の定量化には多視点ポーズ推定が不可欠である。
我々は,新しいトレーニングとポストプロセッシング技術を組み合わせた包括的枠組みを開発する。
フレームワークコンポーネントは3種の多様な動物種に対して,既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-10T22:27:13Z) - A Computer Vision Pipeline for Individual-Level Behavior Analysis: Benchmarking on the Edinburgh Pig Dataset [0.46297934208241753]
動物行動分析は、農業環境における動物福祉、健康状態、生産性を理解する上で重要な役割を担っている。
グループ住宅環境における動物の行動分析を自動化するために,オープンソースの最先端コンピュータビジョン技術を活用するモジュールパイプラインを提案する。
提案手法は, ゼロショット物体検出, モーション認識, セグメンテーションのための最先端モデルと, 頑健な動作認識のための視覚変換器を用いた高度な特徴抽出を組み合わせたものである。
論文 参考訳(メタデータ) (2025-09-15T15:31:12Z) - Hi^2-GSLoc: Dual-Hierarchical Gaussian-Specific Visual Relocalization for Remote Sensing [6.997091164331322]
リモートセンシングやUAVアプリケーションには、視覚的再ローカライゼーションが不可欠である。
画像に基づく検索とポーズ回帰アプローチは精度に欠ける。
スパース・トゥ・デンス(sparse-to-dense)と粗粒度(arse-to-fine)のパラダイムに従う二重階層的再ローカライゼーションフレームワークである$mathrmHi2$-GSLocを紹介した。
論文 参考訳(メタデータ) (2025-07-21T14:47:56Z) - Structure-Aware Correspondence Learning for Relative Pose Estimation [65.44234975976451]
相対的なポーズ推定は、オブジェクトに依存しないポーズ推定を達成するための有望な方法を提供する。
既存の3D対応方式は、可視領域における小さな重複と、可視領域に対する信頼できない特徴推定に悩まされている。
本稿では,2つの鍵モジュールからなる相対詩推定のための構造認識対応学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T13:43:44Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
見えないオブジェクトのポーズ推定方法はCADモデルや複数の参照ビューに依存することが多い。
参照取得を簡略化するために,未提示のRGB-D参照画像を用いて未確認オブジェクトのポーズを推定することを目的とする。
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。
提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。
次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文 参考訳(メタデータ) (2024-04-19T04:51:18Z) - A Trio-Method for Retinal Vessel Segmentation using Image Processing [0.0]
本稿では,三重前処理法を用いて網膜血管の分画に焦点を当てた。
2つの提案されたU-Netアーキテクチャは、すべての標準的なパフォーマンス指標で比較された。
このリアルタイムデプロイメントは、セグメンテーションと検出を向上した画像の効率的な前処理を支援する。
論文 参考訳(メタデータ) (2022-09-19T22:07:34Z) - Test-time Adaptation with Slot-Centric Models [63.981055778098444]
Slot-TTAは、半教師付きシーン分解モデルであり、シーンごとのテスト時間は、再構成やクロスビュー合成の目的に対する勾配降下を通じて適用される。
我々は、最先端の監視フィードフォワード検出器と代替テスト時間適応法に対して、配電性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-03-21T17:59:50Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。