論文の概要: Bringing Inputs to Shared Domains for 3D Interacting Hands Recovery in
the Wild
- arxiv url: http://arxiv.org/abs/2303.13652v1
- Date: Thu, 23 Mar 2023 20:19:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 16:40:54.669770
- Title: Bringing Inputs to Shared Domains for 3D Interacting Hands Recovery in
the Wild
- Title(参考訳): 野生の3dインタラクションハンドリカバリのための共有ドメインへの入力
- Authors: Gyeongsik Moon
- Abstract要約: 1)手指の3次元回復と,2)手指間の3次元相対的翻訳回復の2つのサブプロブレムから構成される。
われわれは、MoCapとITWサンプルを共有ドメインにもたらすInterWildを紹介した。
- 参考スコア(独自算出の注目度): 18.66764540981128
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite recent achievements, existing 3D interacting hands recovery methods
have shown results mainly on motion capture (MoCap) environments, not on
in-the-wild (ITW) ones. This is because collecting 3D interacting hands data in
the wild is extremely challenging, even for the 2D data. We present InterWild,
which brings MoCap and ITW samples to shared domains for robust 3D interacting
hands recovery in the wild with a limited amount of ITW 2D/3D interacting hands
data. 3D interacting hands recovery consists of two sub-problems: 1) 3D
recovery of each hand and 2) 3D relative translation recovery between two
hands. For the first sub-problem, we bring MoCap and ITW samples to a shared 2D
scale space. Although ITW datasets provide a limited amount of 2D/3D
interacting hands, they contain large-scale 2D single hand data. Motivated by
this, we use a single hand image as an input for the first sub-problem
regardless of whether two hands are interacting. Hence, interacting hands of
MoCap datasets are brought to the 2D scale space of single hands of ITW
datasets. For the second sub-problem, we bring MoCap and ITW samples to a
shared appearance-invariant space. Unlike the first sub-problem, 2D labels of
ITW datasets are not helpful for the second sub-problem due to the 3D
translation's ambiguity. Hence, instead of relying on ITW samples, we amplify
the generalizability of MoCap samples by taking only a geometric feature
without an image as an input for the second sub-problem. As the geometric
feature is invariant to appearances, MoCap and ITW samples do not suffer from a
huge appearance gap between the two datasets. The code is publicly available at
https://github.com/facebookresearch/InterWild.
- Abstract(参考訳): 近年の成果にもかかわらず、既存の3Dインタラクションハンドリカバリ手法は、主にモーションキャプチャ(MoCap)環境、すなわちインザミルド(ITW)環境での結果を示している。
これは、2dデータであっても、3dインタラクションによるハンドデータの収集が極めて難しいためです。
本稿では,itw 2d/3dインタラクションハンドデータの限られた量で,ロバストな3dインタラクションハンドリカバリのための共有ドメインにmocapとitwサンプルをもたらすinterwildを提案する。
3次元インタラクションハンドリカバリは2つのサブプロブレムから構成される。
1) 各手の3次元回復
2) 両手間の3次元相対的翻訳回復。
最初のサブプロブレムでは、MoCapとITWサンプルを共有2Dスケールスペースに持ち込みます。
ITWデータセットは、限られた量の2D/3Dインタラクションハンドを提供するが、大規模な2Dシングルハンドデータを含んでいる。
これにより,手動の操作の有無に関わらず,手動画像を第1サブプロブレムの入力として使用する。
したがって、MoCapデータセットのインタラクションハンドは、ITWデータセットの単一ハンドの2Dスケールスペースに持ち込まれる。
第2のサブプロブレムでは、MoCapとITWサンプルを共有外見不変空間に持ち込みます。
第1サブプロブレムとは異なり、ITWデータセットの2Dラベルは、3D翻訳の曖昧さのために第2サブプロブレムでは役に立たない。
したがって、ITWサンプルに頼る代わりに、第2サブプロブレムの入力として画像のない幾何学的特徴のみを取り込むことで、MoCapサンプルの一般化性を増幅する。
幾何学的特徴は外観に不変であるため、MoCapとITWサンプルは2つのデータセット間の大きな外観ギャップに悩まされない。
コードはhttps://github.com/facebookresearch/interwildで公開されている。
関連論文リスト
- MPL: Lifting 3D Human Pose from Multi-view 2D Poses [75.26416079541723]
本稿では,大規模かつリッチなトレーニングデータセットが存在する2次元ポーズ推定と,トランスフォーマーネットワークを用いた2次元から3次元ポーズリフトを提案する。
実験の結果,MPJPEの誤差は2次元ポーズを三角測量した3次元ポーズと比較して最大45%減少することがわかった。
論文 参考訳(メタデータ) (2024-08-20T12:55:14Z) - Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion
Approach for 3D VQA [6.697298321551588]
3D Visual Question Answering (3D VQA)では、完全注釈付きデータの不足と視覚内容の多様性が、新しいシーンや3Dコンセプトへの一般化を妨げている。
本稿では,重要な視覚的手がかりに対する意味的関連2次元入力をピンポイントする質問条件付き2次元ビュー選択手法を提案する。
次に、この2D知識を2分岐トランスフォーマー構造を介して3D-VQAシステムに統合する。
論文 参考訳(メタデータ) (2024-02-24T23:31:34Z) - Cross-modal & Cross-domain Learning for Unsupervised LiDAR Semantic
Segmentation [82.47872784972861]
対象領域における3次元LiDARセマンティックセマンティックセグメンテーション(DLSS)のラベル付けコストを軽減するため、ペア化された2次元画像と3次元LiDARデータに対して、クロスモーダルドメイン適応について検討した。
本稿では,セマンティックアノテーションを持つ2次元データセットとペアだが注釈のない2次元画像と3次元LiDARデータ(ターゲット)が利用できる新しい3DLSS設定について検討する。
このシナリオで3DLSSを実現するために,クロスモーダル・クロスドメイン学習(CoMoDaL)を提案する。
論文 参考訳(メタデータ) (2023-08-05T14:00:05Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - ARCTIC: A Dataset for Dexterous Bimanual Hand-Object Manipulation [68.80339307258835]
ARCTICは、オブジェクトを巧みに操作する両手のデータセットである。
正確な3Dハンドメッシュと、詳細でダイナミックな接触情報を組み合わせた2.1Mビデオフレームを含んでいる。
論文 参考訳(メタデータ) (2022-04-28T17:23:59Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Deep Monocular 3D Human Pose Estimation via Cascaded Dimension-Lifting [10.336146336350811]
1枚の画像からの3次元ポーズ推定は、深さの曖昧さのために難しい問題である。
従来の手法の1つのタイプは、外部の2Dポーズ検出器に頼って得られた2D関節を3D空間に持ち上げる。
文脈情報を利用しながら、3D空間で直接出力する,新たなエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-08T05:44:02Z) - Reconstructing Hand-Object Interactions in the Wild [71.16013096764046]
直接3D監視を必要としない最適化手法を提案する。
利用可能なすべての関連データ(2Dバウンディングボックス、2Dハンドキーポイント、2Dインスタンスマスク、3Dオブジェクトモデル、3DインザラボMoCap)を利用して、3D再構築の制約を提供します。
本手法はEPIC Kitchens と 100 Days of Hands のデータセットから, 難易度の高いデータに対して, 説得力のある再構築を行う。
論文 参考訳(メタデータ) (2020-12-17T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。