論文の概要: Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in
Time
- arxiv url: http://arxiv.org/abs/2106.05266v1
- Date: Wed, 9 Jun 2021 17:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:07:02.860655
- Title: Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in
Time
- Title(参考訳): 時間的相互作用を伴う半教師付き3次元ハンドオブジェクトポーズ推定
- Authors: Shaowei Liu, Hanwen Jiang, Jiarui Xu, Sifei Liu, Xiaolong Wang
- Abstract要約: 本研究では,3次元手とオブジェクトのポーズを半教師付き学習で推定する統合フレームワークを提案する。
我々は,手とオブジェクトの表現を変換器で明示的な文脈的推論を行う,共同学習フレームワークを構築した。
提案手法は,実世界の挑戦的データセットにおける手振り推定を改良するだけでなく,1インスタンスあたりの接地構造がより少ないオブジェクトポーズも大幅に改善する。
- 参考スコア(独自算出の注目度): 22.574069344246052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 3D hand and object pose from a single image is an extremely
challenging problem: hands and objects are often self-occluded during
interactions, and the 3D annotations are scarce as even humans cannot directly
label the ground-truths from a single image perfectly. To tackle these
challenges, we propose a unified framework for estimating the 3D hand and
object poses with semi-supervised learning. We build a joint learning framework
where we perform explicit contextual reasoning between hand and object
representations by a Transformer. Going beyond limited 3D annotations in a
single image, we leverage the spatial-temporal consistency in large-scale
hand-object videos as a constraint for generating pseudo labels in
semi-supervised learning. Our method not only improves hand pose estimation in
challenging real-world dataset, but also substantially improve the object pose
which has fewer ground-truths per instance. By training with large-scale
diverse videos, our model also generalizes better across multiple out-of-domain
datasets. Project page and code: https://stevenlsw.github.io/Semi-Hand-Object
- Abstract(参考訳): 1枚の画像から3d手とオブジェクトのポーズを推定することは、非常に難しい問題である。手とオブジェクトは相互作用の間、しばしば自己閉塞され、3dアノテーションは、人間が1枚の画像から地面に直接ラベルを付けることができないため、希少である。
これらの課題に取り組むため,我々は半教師付き学習を用いて3次元手と物体のポーズを推定する統一フレームワークを提案する。
我々は,手とオブジェクトの表現を変換器で明示的な文脈推論を行う,共同学習フレームワークを構築した。
画像中の限られた3Dアノテーションを超えて、大規模な手オブジェクトビデオにおける空間的時間的一貫性を半教師付き学習における擬似ラベル生成の制約として活用する。
本手法は,実世界の課題データセットにおけるハンドポーズ推定を改善するだけでなく,インスタンス単位の接地率の少ないオブジェクトポーズを実質的に改善する。
大規模な多様なビデオのトレーニングによって、当社のモデルは複数のドメイン外のデータセットをまたいでより汎用化できます。
プロジェクトページとコード:https://stevenlsw.github.io/Semi-Hand-Object
関連論文リスト
- Reconstructing Hand-Held Objects in 3D [53.277402172488735]
本稿では,大規模言語/ビジョンモデルと3次元オブジェクトデータセットの最近のブレークスルーに基づくハンドヘルドオブジェクト再構築のパラダイムを提案する。
我々は、GPT-4(V)を用いて、画像中のオブジェクトにマッチする3次元オブジェクトモデルを検索し、そのモデルをネットワーク推論幾何に整合させる。
実験により、MCC-HOは実験室およびインターネットデータセット上で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-04-09T17:55:41Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - Learning Hand-Held Object Reconstruction from In-The-Wild Videos [19.16274394098004]
我々はObManデータセットから合成オブジェクトを用いてデータ駆動型3次元形状を学習する。
我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
論文 参考訳(メタデータ) (2023-05-04T17:56:48Z) - What's in your hands? 3D Reconstruction of Generic Objects in Hands [49.12461675219253]
我々の研究は、単一のRGB画像からハンドヘルドオブジェクトを再構築することを目的としている。
通常、既知の3Dテンプレートを仮定し、問題を3Dポーズ推定に還元する以前の作業とは対照的に、我々の作業は3Dテンプレートを知らずに汎用的なハンドヘルドオブジェクトを再構成する。
論文 参考訳(メタデータ) (2022-04-14T17:59:02Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z) - Perceiving 3D Human-Object Spatial Arrangements from a Single Image in
the Wild [96.08358373137438]
本研究では,世界規模で一貫した3Dシーンにおいて,人間や物体の空間的配置や形状を推定する手法を提案する。
本手法は,シーンレベルやオブジェクトレベルの3D監視を必要とせず,データセット上で動作させる。
論文 参考訳(メタデータ) (2020-07-30T17:59:50Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。