Fugu-MT 論文翻訳(概要): Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in Time

論文の概要: Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in Time

arxiv url: http://arxiv.org/abs/2106.05266v1
Date: Wed, 9 Jun 2021 17:59:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-10 15:07:02.860655
Title: Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in Time
Title（参考訳）: 時間的相互作用を伴う半教師付き3次元ハンドオブジェクトポーズ推定
Authors: Shaowei Liu, Hanwen Jiang, Jiarui Xu, Sifei Liu, Xiaolong Wang
Abstract要約: 本研究では,3次元手とオブジェクトのポーズを半教師付き学習で推定する統合フレームワークを提案する。我々は,手とオブジェクトの表現を変換器で明示的な文脈的推論を行う,共同学習フレームワークを構築した。提案手法は,実世界の挑戦的データセットにおける手振り推定を改良するだけでなく,1インスタンスあたりの接地構造がより少ないオブジェクトポーズも大幅に改善する。
参考スコア（独自算出の注目度）: 22.574069344246052
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Estimating 3D hand and object pose from a single image is an extremely challenging problem: hands and objects are often self-occluded during interactions, and the 3D annotations are scarce as even humans cannot directly label the ground-truths from a single image perfectly. To tackle these challenges, we propose a unified framework for estimating the 3D hand and object poses with semi-supervised learning. We build a joint learning framework where we perform explicit contextual reasoning between hand and object representations by a Transformer. Going beyond limited 3D annotations in a single image, we leverage the spatial-temporal consistency in large-scale hand-object videos as a constraint for generating pseudo labels in semi-supervised learning. Our method not only improves hand pose estimation in challenging real-world dataset, but also substantially improve the object pose which has fewer ground-truths per instance. By training with large-scale diverse videos, our model also generalizes better across multiple out-of-domain datasets. Project page and code: https://stevenlsw.github.io/Semi-Hand-Object
Abstract（参考訳）: 1枚の画像から3d手とオブジェクトのポーズを推定することは、非常に難しい問題である。手とオブジェクトは相互作用の間、しばしば自己閉塞され、3dアノテーションは、人間が1枚の画像から地面に直接ラベルを付けることができないため、希少である。これらの課題に取り組むため,我々は半教師付き学習を用いて3次元手と物体のポーズを推定する統一フレームワークを提案する。我々は,手とオブジェクトの表現を変換器で明示的な文脈推論を行う,共同学習フレームワークを構築した。画像中の限られた3Dアノテーションを超えて、大規模な手オブジェクトビデオにおける空間的時間的一貫性を半教師付き学習における擬似ラベル生成の制約として活用する。本手法は,実世界の課題データセットにおけるハンドポーズ推定を改善するだけでなく,インスタンス単位の接地率の少ないオブジェクトポーズを実質的に改善する。大規模な多様なビデオのトレーニングによって、当社のモデルは複数のドメイン外のデータセットをまたいでより汎用化できます。プロジェクトページとコード:https://stevenlsw.github.io/Semi-Hand-Object

関連論文リスト

Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。 1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文参考訳（メタデータ） (2024-04-09T17:55:41Z)
HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文参考訳（メタデータ） (2023-11-30T10:50:35Z)
What's in your hands? 3D Reconstruction of Generic Objects in Hands [49.12461675219253]
我々の研究は、単一のRGB画像からハンドヘルドオブジェクトを再構築することを目的としている。通常、既知の3Dテンプレートを仮定し、問題を3Dポーズ推定に還元する以前の作業とは対照的に、我々の作業は3Dテンプレートを知らずに汎用的なハンドヘルドオブジェクトを再構成する。
論文参考訳（メタデータ） (2022-04-14T17:59:02Z)
H2O: Two Hands Manipulating Objects for First Person Interaction Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文参考訳（メタデータ） (2021-04-22T17:10:42Z)
Perceiving 3D Human-Object Spatial Arrangements from a Single Image in the Wild [96.08358373137438]
本研究では,世界規模で一貫した3Dシーンにおいて,人間や物体の空間的配置や形状を推定する手法を提案する。本手法は,シーンレベルやオブジェクトレベルの3D監視を必要とせず,データセット上で動作させる。
論文参考訳（メタデータ） (2020-07-30T17:59:50Z)
Leveraging Photometric Consistency over Time for Sparsely Supervised Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文参考訳（メタデータ） (2020-04-28T12:03:14Z)
Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文参考訳（メタデータ） (2020-03-30T19:28:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。