論文の概要: DogMo: A Large-Scale Multi-View RGB-D Dataset for 4D Canine Motion Recovery
- arxiv url: http://arxiv.org/abs/2510.24117v1
- Date: Tue, 28 Oct 2025 06:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.818611
- Title: DogMo: A Large-Scale Multi-View RGB-D Dataset for 4D Canine Motion Recovery
- Title(参考訳): DogMo:4D犬の運動回復のための大規模マルチビューRGB-Dデータセット
- Authors: Zan Wang, Siyu Chen, Luya Mo, Xinfeng Gao, Yuxin Shen, Lebin Ding, Wei Liang,
- Abstract要約: 画像から運動回復のための多様な犬の動きをキャプチャする大規模マルチビューRGB-DビデオデータセットであるDogMoを提案する。
DogMoは10匹のユニークな犬から1.2kの運動シーケンスを収集し、運動と繁殖の両方に豊富なバリエーションを提供する。
- 参考スコア(独自算出の注目度): 13.46495683099482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DogMo, a large-scale multi-view RGB-D video dataset capturing diverse canine movements for the task of motion recovery from images. DogMo comprises 1.2k motion sequences collected from 10 unique dogs, offering rich variation in both motion and breed. It addresses key limitations of existing dog motion datasets, including the lack of multi-view and real 3D data, as well as limited scale and diversity. Leveraging DogMo, we establish four motion recovery benchmark settings that support systematic evaluation across monocular and multi-view, RGB and RGB-D inputs. To facilitate accurate motion recovery, we further introduce a three-stage, instance-specific optimization pipeline that fits the SMAL model to the motion sequences. Our method progressively refines body shape and pose through coarse alignment, dense correspondence supervision, and temporal regularization. Our dataset and method provide a principled foundation for advancing research in dog motion recovery and open up new directions at the intersection of computer vision, computer graphics, and animal behavior modeling.
- Abstract(参考訳): 画像から運動回復を行うために,犬の動きを多彩に把握した大規模マルチビューRGB-DビデオデータセットDogMoを提案する。
DogMoは10匹のユニークな犬から1.2kの運動シーケンスを収集し、運動と繁殖の両方に豊富なバリエーションを提供する。
マルチビューとリアル3Dデータの欠如、スケールと多様性の制限など、既存のドッグモーションデータセットの重要な制限に対処する。
DogMoを活用することで、単眼・多眼・RGB・RGB-D入力の系統的評価をサポートする4つの動作回復ベンチマーク設定を確立する。
さらに,3段階のインスタンス固有の最適化パイプラインを導入し,SMALモデルを動作シーケンスに適合させる。
本手法は, 粗いアライメント, 密接な対応監視, 時間的正規化によって, 身体の形状や姿勢を徐々に洗練する。
我々のデータセットと手法は、犬の運動回復の研究を推進し、コンピュータビジョン、コンピュータグラフィックス、動物行動モデリングの交差点に新しい方向を開くための基礎となる。
関連論文リスト
- VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models [110.32291962407078]
VimoRAG(ヴィモラグ)は、動画に基づく大規模言語モデルのためのモーション生成フレームワークである。
動作中心の効果的なビデオ検索モデルを開発し、最適下検索結果による誤り伝播の問題を緩和する。
実験結果から,VimoRAGはテキストのみの入力に制約された動きLLMの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-16T15:31:14Z) - In-2-4D: Inbetweening from Two Single-View Images to 4D Generation [63.68181731564576]
Inbetween-2-4Dという,2枚のシングルビュー画像を補間する4次元(つまり3D + モーション)の生成問題を提案する。
テキストや1つの画像のみからの映像/4D生成とは対照的に、補間タスクはより正確なモーション制御を利用して生成をよりよく制約することができる。
論文 参考訳(メタデータ) (2025-04-11T09:01:09Z) - Mocap-2-to-3: Multi-view Lifting for Monocular Motion Recovery with 2D Pretraining [49.223455189395025]
Mocap-2-to-3は単分子入力からマルチビューリフトを実行する新しいフレームワークである。
豊富な2次元データを活用するため、複雑な3次元運動を多視点合成に分解する。
本手法は,カメラ空間のモーションリアリズムと世界空間の人間の位置決めの両面において,最先端のアプローチを超越した手法である。
論文 参考訳(メタデータ) (2025-03-05T06:32:49Z) - Lifting Motion to the 3D World via 2D Diffusion [19.64801640086107]
トレーニング用に2次元ポーズシーケンスのみを用いてグローバルな3次元動作を予測する新しいアプローチであるMVLiftを紹介する。
MVLiftは、人間のポーズ、人間とオブジェクトの相互作用、動物のポーズなど、さまざまな領域を一般化する。
論文 参考訳(メタデータ) (2024-11-27T23:26:56Z) - Benchmarking Monocular 3D Dog Pose Estimation Using In-The-Wild Motion Capture Data [17.042955091063444]
単眼画像からの3次元犬のポーズ推定に焦点をあてた新しいベンチマーク分析を提案する。
マルチモーダルなデータセット3DDogs-Labは屋内で撮影され、様々な犬種が通路で群がっている。
3DDogs-Wildは、光学マーカーをインペイントし、被験者を多様な環境に配置するデータセットの帰化バージョンです。
また, 3DDogs-Wild を用いたモデルトレーニングにより, フィールド内データの評価において, 性能が向上することを示した。
論文 参考訳(メタデータ) (2024-06-20T15:33:39Z) - HuMoR: 3D Human Motion Model for Robust Pose Estimation [100.55369985297797]
HuMoRは、時間的ポーズと形状のロバスト推定のための3Dヒューマンモーションモデルです。
モーションシーケンスの各ステップにおけるポーズの変化の分布を学習する条件付き変分オートエンコーダについて紹介する。
本モデルが大規模モーションキャプチャーデータセットのトレーニング後に多様な動きや体型に一般化することを示す。
論文 参考訳(メタデータ) (2021-05-10T21:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。