論文の概要: MBW: Multi-view Bootstrapping in the Wild
- arxiv url: http://arxiv.org/abs/2210.01721v1
- Date: Tue, 4 Oct 2022 16:27:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:04:07.479535
- Title: MBW: Multi-view Bootstrapping in the Wild
- Title(参考訳): MBW:マルチビューブートストラップ
- Authors: Mosam Dabhi, Chaoyang Wang, Tim Clifford, Laszlo Attila Jeni, Ian R.
Fasel, Simon Lucey
- Abstract要約: 微細な検出器を訓練するマルチカメラシステムは、そのようなエラーを検出することを約束している。
このアプローチは、キャリブレーションされたカメラと厳密な幾何学に基づいており、現実のシナリオでは高価で、管理が難しく、実用的ではない。
本稿では,高忠実度ランドマーク推定値を得るために,非剛性3次元ニューラルネットワークと深部流れを組み合わせることで,これらのボトルネックに対処する。
既存の手法では不可能な3D再構成とともに、最先端の完全教師付き手法に匹敵する2D結果を生成することができる。
- 参考スコア(独自算出の注目度): 30.038254895713276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Labeling articulated objects in unconstrained settings have a wide variety of
applications including entertainment, neuroscience, psychology, ethology, and
many fields of medicine. Large offline labeled datasets do not exist for all
but the most common articulated object categories (e.g., humans). Hand labeling
these landmarks within a video sequence is a laborious task. Learned landmark
detectors can help, but can be error-prone when trained from only a few
examples. Multi-camera systems that train fine-grained detectors have shown
significant promise in detecting such errors, allowing for self-supervised
solutions that only need a small percentage of the video sequence to be
hand-labeled. The approach, however, is based on calibrated cameras and rigid
geometry, making it expensive, difficult to manage, and impractical in
real-world scenarios. In this paper, we address these bottlenecks by combining
a non-rigid 3D neural prior with deep flow to obtain high-fidelity landmark
estimates from videos with only two or three uncalibrated, handheld cameras.
With just a few annotations (representing 1-2% of the frames), we are able to
produce 2D results comparable to state-of-the-art fully supervised methods,
along with 3D reconstructions that are impossible with other existing
approaches. Our Multi-view Bootstrapping in the Wild (MBW) approach
demonstrates impressive results on standard human datasets, as well as tigers,
cheetahs, fish, colobus monkeys, chimpanzees, and flamingos from videos
captured casually in a zoo. We release the codebase for MBW as well as this
challenging zoo dataset consisting image frames of tail-end distribution
categories with their corresponding 2D, 3D labels generated from minimal human
intervention.
- Abstract(参考訳): 調音された物体のラベル付けは、エンタテインメント、神経科学、心理学、倫理学、多くの医学分野を含む幅広い応用がある。
大規模なオフラインラベル付きデータセットは、最も一般的なオブジェクトカテゴリ(例えば人間)以外は存在しない。
これらのランドマークをビデオシーケンス内にラベル付けするのは、面倒な作業だ。
学習されたランドマーク検出器は役に立つが、少数の例からトレーニングするとエラーを起こしやすい。
細粒度検出器を訓練するマルチカメラシステムは、このようなエラーを検出することに大きな可能性を秘めており、ビデオシーケンスのごく一部しか手ラベルを付ける必要のない自己教師付きソリューションを可能にする。
しかしこのアプローチは、キャリブレーションされたカメラと剛体形状に基づいており、現実のシナリオでは高価で、管理が難しく、実用的ではない。
本稿では,非剛性3次元ニューラルプレックスと深度流とを組み合わせることで,ビデオから高忠実度ランドマーク推定を2、3台の手持ちカメラで行うことにより,これらのボトルネックに対処する。
わずかなアノテーション(フレームの1-2%)で、最先端の完全な教師付きメソッドに匹敵する2d結果と、他の既存のアプローチでは不可能である3dリコンストラクションを作成できます。
私たちのマルチビューブートストラップ・イン・ザ・ワイルド(mbw)アプローチは、動物園でカジュアルに撮影されたビデオから、トラ、チーター、魚、コロバスザル、チンパンジー、フラミンゴなど、標準的な人間のデータセットで印象的な結果を示しています。
MBWのコードベースと、最小限の人的介入から生成される2D, 3Dラベルと、テールエンド分布カテゴリの画像フレームからなる、この挑戦的な動物園データセットをリリースする。
関連論文リスト
- Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular
Videos in the Wild [10.849750765175754]
POTR-3Dは3DMPPEのためのシーケンスツーシーケンス2D-to-3Dリフトモデルである。
多様な見えないビューに強く一般化し、重いオクルージョンに対するポーズを強く回復し、より自然でスムーズなアウトプットを確実に生成する。
論文 参考訳(メタデータ) (2023-09-15T06:17:22Z) - Unsupervised Multi-view Pedestrian Detection [12.882317991955228]
2D-3Dマッピングによる多視点歩行者検出器の学習におけるアノテーションの必要性を排除するために,unsupervised Multi-view Pedestrian Detection approach (UMPD)を提案する。
SISは、疑似ラベルとして2次元歩行者マスクに変換される多視点画像の教師なし表現を抽出することを提案する。
GVDは、多視点2D画像を3Dボリュームにエンコードし、3Dから2Dマッピングで訓練された2Dから3Dの幾何学的投影を通して、ボクセルの密度と色を予測する。
論文 参考訳(メタデータ) (2023-05-21T13:27:02Z) - Reconstructing Animatable Categories from Videos [65.14948977749269]
アニマタブルな3Dモデルの構築は、3Dスキャン、精巧な登録、手動リグの必要性のために難しい。
本稿では,一眼レフビデオからカテゴリ3Dモデルを構築するRACについて述べる。
私たちは、人間、猫、犬の3Dモデルが50-100のインターネットビデオから学習できることを示します。
論文 参考訳(メタデータ) (2023-05-10T17:56:21Z) - Common Pets in 3D: Dynamic New-View Synthesis of Real-Life Deformable
Categories [80.30216777363057]
コモンペットを3Dで紹介する(CoP3D)。
テスト時には、目に見えないオブジェクトの少数のビデオフレームが与えられたとき、Tracker-NeRFはその3Dポイントの軌跡を予測し、新しいビューを生成する。
CoP3Dの結果は、既存のベースラインよりも、厳密でない新規ビュー合成性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-07T22:42:42Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z) - AcinoSet: A 3D Pose Estimation Dataset and Baseline Models for Cheetahs
in the Wild [51.35013619649463]
我々はAcinoSetと呼ばれる野生のフリーランニングチーターの広範なデータセットを提示する。
データセットには、119,490フレームのマルチビュー同期高速ビデオ映像、カメラキャリブレーションファイル、7,588フレームが含まれている。
また、結果の3D軌道、人間チェックされた3D地上真実、およびデータを検査するインタラクティブツールも提供される。
論文 参考訳(メタデータ) (2021-03-24T15:54:11Z) - Exploring Severe Occlusion: Multi-Person 3D Pose Estimation with Gated
Convolution [34.301501457959056]
本稿では,2次元関節を3次元に変換するために,ゲート型畳み込みモジュールを用いた時間回帰ネットワークを提案する。
また, 正規化ポーズを大域軌跡に変換するために, 単純かつ効果的な局所化手法も実施した。
提案手法は,最先端の2D-to-3Dポーズ推定法よりも優れている。
論文 参考訳(メタデータ) (2020-10-31T04:35:24Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Monocular, One-stage, Regression of Multiple 3D People [105.3143785498094]
我々は、複数の3D人物(ROMP)のための1段階方式で全てのメッシュを回帰することを提案する。
本手法は,体温マップとメッシュマップを同時に予測し,画素レベルの3Dボディメッシュを共同で記述する。
最先端の手法と比較して、ROMPは挑戦的なマルチパーソンベンチマークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-08-27T17:21:47Z) - Full-Body Awareness from Partial Observations [17.15829643665034]
本稿では,人間の3Dメッシュ回収システムをコンシューマビデオに適用する自己学習フレームワークを提案する。
本手法は,ベースラインに比べてPCKと人体判断を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-08-13T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。