論文の概要: MOHO: Learning Single-view Hand-held Object Reconstruction with
Multi-view Occlusion-Aware Supervision
- arxiv url: http://arxiv.org/abs/2310.11696v1
- Date: Wed, 18 Oct 2023 03:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 17:58:15.318925
- Title: MOHO: Learning Single-view Hand-held Object Reconstruction with
Multi-view Occlusion-Aware Supervision
- Title(参考訳): MOHO:マルチビューオクルージョン・アウェア・スーパービジョンを用いたシングルビューハンドヘルドオブジェクト再構成学習
- Authors: Chenyangguang Zhang, Guanlong Jiao, Yan Di, Ziqin Huang, Gu Wang,
Ruida Zhang, Bowen Fu, Federico Tombari and Xiangyang Ji
- Abstract要約: ハンドオブジェクトビデオからの多視点監視により,単一の画像から手持ちオブジェクトを再構成するMOHOを提案する。
我々は,物体の自己閉塞と手関節閉塞の2つの主要な課題に取り組む。
HO3D と DexYCB のデータセットを用いた実験では、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることが示された。
- 参考スコア(独自算出の注目度): 73.10275890411832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous works concerning single-view hand-held object reconstruction
typically utilize supervision from 3D ground truth models, which are hard to
collect in real world. In contrast, abundant videos depicting hand-object
interactions can be accessed easily with low cost, although they only give
partial object observations with complex occlusion. In this paper, we present
MOHO to reconstruct hand-held object from a single image with multi-view
supervision from hand-object videos, tackling two predominant challenges
including object's self-occlusion and hand-induced occlusion. MOHO inputs
semantic features indicating visible object parts and geometric embeddings
provided by hand articulations as partial-to-full cues to resist object's
self-occlusion, so as to recover full shape of the object. Meanwhile, a novel
2D-3D hand-occlusion-aware training scheme following the synthetic-to-real
paradigm is proposed to release hand-induced occlusion. In the synthetic
pre-training stage, 2D-3D hand-object correlations are constructed by
supervising MOHO with rendered images to complete the hand-concealed regions of
the object in both 2D and 3D space. Subsequently, MOHO is finetuned in real
world by the mask-weighted volume rendering supervision adopting hand-object
correlations obtained during pre-training. Extensive experiments on HO3D and
DexYCB datasets demonstrate that 2D-supervised MOHO gains superior results
against 3D-supervised methods by a large margin. Codes and key assets will be
released soon.
- Abstract(参考訳): シングルビューハンドヘルドオブジェクト再構築に関するこれまでの研究は、現実世界では収集が難しい3D地上真理モデルからの監督を利用するのが一般的である。
対照的に、手と物体の相互作用を描いた豊富なビデオは低コストで簡単にアクセスできるが、それらは複雑な咬合を伴う部分的なオブジェクト観察しか与えない。
本稿では,対象物の自己排他性,手による閉塞性といった2つの課題に取り組むとともに,対象ビデオから多視点の監視を施した単一画像から手持ち物体を再構成するmohoを提案する。
MOHOは、目に見える対象部分を示す意味的特徴と、手話によって提供される幾何学的埋め込みを、オブジェクトの完全な形状を回復するために、オブジェクトの自己閉塞に抵抗する部分対フルキューとして入力する。
一方, 合成から現実へのパラダイムに従って, 新たな2d-3dハンドオクルージョン・アウェアトレーニング方式が提案されている。
合成前訓練段階において、mohoとレンダリング画像とを監督することにより、2d及び3d空間におけるオブジェクトのハンドコンセラル領域を完結させる2d−3dハンドオブジェクト相関を構築する。
その後、プリトレーニング中に得られた手オブジェクト相関を応用したマスク重み付きボリュームレンダリング監視により、実世界でMOHOを微調整する。
HO3D と DexYCB データセットの大規模な実験により、2D 教師付き MOHO が 3D 教師付き手法に対して大きなマージンで優れた結果を得ることが示された。
コードと主要な資産はまもなくリリースされる。
関連論文リスト
- Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - In-Hand 3D Object Reconstruction from a Monocular RGB Video [17.31419675163019]
我々の研究は、静止RGBカメラの前で手で保持・回転する3Dオブジェクトを再構築することを目的としている。
暗黙の神経表現を用いて、多視点画像からジェネリックハンドヘルドオブジェクトの形状を復元する従来の手法は、オブジェクトの可視部分において魅力的な結果を得た。
論文 参考訳(メタデータ) (2023-12-27T06:19:25Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - 3D Reconstruction of Objects in Hands without Real World 3D Supervision [12.70221786947807]
ハンドヘルドオブジェクトを再構築するためのモデル学習をスケールアップするために,3Dインスペクションを活用するモジュールを提案する。
具体的には、ビデオから多視点2Dマスクの監視を抽出し、形状収集から3次元形状の前兆を抽出する。
我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
論文 参考訳(メタデータ) (2023-05-04T17:56:48Z) - Unsupervised Style-based Explicit 3D Face Reconstruction from Single
Image [10.1205208477163]
本研究では,Unsupervised 2D to Explicit 3D Style Transferを解くための一般的な逆学習フレームワークを提案する。
具体的には、Wuらによる教師なし明示的な3D再構成ネットワークと、StarGAN-v2というジェネレーティブ・アドバイザリ・ネットワーク(GAN)の2つのアーキテクチャを統合する。
提案手法は,DepthNetを3次元再構成で,Pix2NeRFを条件付き転送で,よく確立されたソリューションよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T21:25:06Z) - Towards unconstrained joint hand-object reconstruction from RGB videos [81.97694449736414]
ハンドオブジェクト操作の再構築は、ロボット工学と人間のデモから学ぶ大きな可能性を秘めている。
まず,手動物体の相互作用をシームレスに処理できる学習不要な手動物体再構成手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T12:26:34Z) - Reconstructing Hand-Object Interactions in the Wild [71.16013096764046]
直接3D監視を必要としない最適化手法を提案する。
利用可能なすべての関連データ(2Dバウンディングボックス、2Dハンドキーポイント、2Dインスタンスマスク、3Dオブジェクトモデル、3DインザラボMoCap)を利用して、3D再構築の制約を提供します。
本手法はEPIC Kitchens と 100 Days of Hands のデータセットから, 難易度の高いデータに対して, 説得力のある再構築を行う。
論文 参考訳(メタデータ) (2020-12-17T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。