論文の概要: Web-Scale Collection of Video Data for 4D Animal Reconstruction
- arxiv url: http://arxiv.org/abs/2511.01169v1
- Date: Mon, 03 Nov 2025 02:40:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.088566
- Title: Web-Scale Collection of Video Data for 4D Animal Reconstruction
- Title(参考訳): 4次元動物再構成のためのWebスケールビデオデータの収集
- Authors: Brian Nlong Zhao, Jiajun Wu, Shangzhe Wu,
- Abstract要約: 私たちは、YouTubeビデオをマイニングし、それらをオブジェクト中心のクリップに加工する自動化パイプラインを導入しました。
このパイプラインを使って、30Kビデオ(2Mフレーム)を収集します。
クリーンで多様な動物の動きを示す11Kフレームの230個の手動フィルタリングシーケンスのベンチマークであるAnimal-in-Motionを提案する。
- 参考スコア(独自算出の注目度): 26.179284343904897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer vision for animals holds great promise for wildlife research but often depends on large-scale data, while existing collection methods rely on controlled capture setups. Recent data-driven approaches show the potential of single-view, non-invasive analysis, yet current animal video datasets are limited--offering as few as 2.4K 15-frame clips and lacking key processing for animal-centric 3D/4D tasks. We introduce an automated pipeline that mines YouTube videos and processes them into object-centric clips, along with auxiliary annotations valuable for downstream tasks like pose estimation, tracking, and 3D/4D reconstruction. Using this pipeline, we amass 30K videos (2M frames)--an order of magnitude more than prior works. To demonstrate its utility, we focus on the 4D quadruped animal reconstruction task. To support this task, we present Animal-in-Motion (AiM), a benchmark of 230 manually filtered sequences with 11K frames showcasing clean, diverse animal motions. We evaluate state-of-the-art model-based and model-free methods on Animal-in-Motion, finding that 2D metrics favor the former despite unrealistic 3D shapes, while the latter yields more natural reconstructions but scores lower--revealing a gap in current evaluation. To address this, we enhance a recent model-free approach with sequence-level optimization, establishing the first 4D animal reconstruction baseline. Together, our pipeline, benchmark, and baseline aim to advance large-scale, markerless 4D animal reconstruction and related tasks from in-the-wild videos. Code and datasets are available at https://github.com/briannlongzhao/Animal-in-Motion.
- Abstract(参考訳): 動物に対するコンピュータビジョンは、野生生物の研究には大いに期待できるが、しばしば大規模なデータに依存し、既存の収集方法は制御された捕獲装置に依存している。
最近のデータ駆動型アプローチは、単一ビュー、非侵襲的分析の可能性を示しているが、現在の動物ビデオデータセットは、2.4Kの15フレームのクリップに制限があり、動物中心の3D/4Dタスクのキー処理が欠けている。
私たちは、YouTubeビデオをマイニングし、それらをオブジェクト中心のクリップに処理する自動化パイプラインを導入し、ポーズ推定やトラッキング、3D/4D再構成といった下流タスクに有用な補助アノテーションを導入しました。
このパイプラインを使って、30Kビデオ(2Mフレーム)を収集します。
有用性を示すために,4次元四足動物再建作業に着目する。
この課題を支援するために、私たちは、クリーンで多様な動物の動きを示す11Kフレームの230個の手動フィルタリングシーケンスのベンチマークであるAnimal-in-Motion (AiM)を提示する。
本研究では,非現実的な3次元形状に拘わらず2次元の計測値が前者より有利であるのに対して,後者はより自然に復元されるが,現在の評価のギャップを低くする。
そこで本研究では,最新のモデルフリーアプローチをシーケンスレベルの最適化により強化し,最初の4次元動物再構築ベースラインを確立する。
当社のパイプライン、ベンチマーク、ベースラインは、大規模でマーカーのない4D動物の再構築と、それに関連するタスクを、現在開発中のビデオから進めることを目的としています。
コードとデータセットはhttps://github.com/briannlongzhao/Animal-in-Motion.comで公開されている。
関連論文リスト
- 4D-Animal: Freely Reconstructing Animatable 3D Animals from Videos [15.063635374924209]
本報告では,ビデオからアニマタブルな3D動物を疎いキーポイントアノテーションを必要とせずに再構成する新しいフレームワークである4D-Animalを提案する。
提案手法では,2次元表現をSMALパラメータにマッピングする高密度特徴ネットワークを導入し,フィッティングプロセスの効率性と安定性を両立させる。
論文 参考訳(メタデータ) (2025-07-14T16:24:31Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - Recurrence over Video Frames (RoVF) for the Re-identification of Meerkats [4.512615837610558]
本稿では、Perceiverアーキテクチャに基づく繰り返しヘッドを用いて、ビデオクリップから埋め込みを反復的に構築するRecurrence over Video Frames (RoVF)という手法を提案する。
我々は、ウェリントン動物園で収集されたミーアカットのデータセット上で、DINOv2トランスフォーマーアーキテクチャに基づいて、この手法と様々なモデルを検証した。
提案手法は,最高の DINOv2 モデル (42%$) よりも高い 49%$ のトップ1再同定精度を実現する。
論文 参考訳(メタデータ) (2024-06-18T18:44:19Z) - Virtual Pets: Animatable Animal Generation in 3D Scenes [84.0990909455833]
仮想ペット(Virtual Pet)は、3次元環境下での標的動物種に対する現実的で多様な動きをモデル化するための新しいパイプラインである。
我々はモノクロインターネットビデオを活用し、背景と背景の静的なNeRF表現に対して変形可能なNeRF表現を抽出する。
我々は,種レベルの共有テンプレート学習とビデオ毎の微調整を含む再構築戦略を開発する。
論文 参考訳(メタデータ) (2023-12-21T18:59:30Z) - Ponymation: Learning Articulated 3D Animal Motions from Unlabeled Online Videos [47.97168047776216]
そこで,本研究では,生の未表示オンラインビデオから3次元動物運動の合成モデルを学習するための新しい手法を提案する。
我々のモデルは、自己教師付き画像の特徴から抽出した意味的対応を利用して、ラベルなしのウェブビデオクリップの集合から純粋に学習する。
論文 参考訳(メタデータ) (2023-12-21T06:44:18Z) - Common Pets in 3D: Dynamic New-View Synthesis of Real-Life Deformable
Categories [80.30216777363057]
コモンペットを3Dで紹介する(CoP3D)。
テスト時には、目に見えないオブジェクトの少数のビデオフレームが与えられたとき、Tracker-NeRFはその3Dポイントの軌跡を予測し、新しいビューを生成する。
CoP3Dの結果は、既存のベースラインよりも、厳密でない新規ビュー合成性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-07T22:42:42Z) - APT-36K: A Large-scale Benchmark for Animal Pose Estimation and Tracking [77.87449881852062]
APT-36Kは動物のポーズ推定と追跡のための最初の大規模ベンチマークである。
このビデオは、30種の動物から収集・フィルタリングされた2,400のビデオクリップと、各ビデオの15フレームで構成されており、合計で36,000フレームとなっている。
我々は,(1)ドメイン内およびドメイン間移動学習環境下での単一フレームでの動物ポーズ推定,(2)未確認動物に対する種間ドメイン一般化テスト,(3)動物追跡による動物ポーズ推定の3つのモデルについて,いくつかの代表的モデルをベンチマークした。
論文 参考訳(メタデータ) (2022-06-12T07:18:36Z) - AcinoSet: A 3D Pose Estimation Dataset and Baseline Models for Cheetahs
in the Wild [51.35013619649463]
我々はAcinoSetと呼ばれる野生のフリーランニングチーターの広範なデータセットを提示する。
データセットには、119,490フレームのマルチビュー同期高速ビデオ映像、カメラキャリブレーションファイル、7,588フレームが含まれている。
また、結果の3D軌道、人間チェックされた3D地上真実、およびデータを検査するインタラクティブツールも提供される。
論文 参考訳(メタデータ) (2021-03-24T15:54:11Z) - ZooBuilder: 2D and 3D Pose Estimation for Quadrupeds Using Synthetic
Data [2.3661942553209236]
2Dと3Dのポーズ推定モデルを合成データでトレーニングし、ZooBuilderと呼ばれるエンドツーエンドのパイプラインを配置します。
パイプラインは野生動物のビデオとして入力され、動物の骨格の各関節の対応する2Dと3D座標を生成する。
論文 参考訳(メタデータ) (2020-09-01T07:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。