論文の概要: MOHO: Learning Single-view Hand-held Object Reconstruction with
Multi-view Occlusion-Aware Supervision
- arxiv url: http://arxiv.org/abs/2310.11696v2
- Date: Wed, 13 Mar 2024 07:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 18:28:03.523203
- Title: MOHO: Learning Single-view Hand-held Object Reconstruction with
Multi-view Occlusion-Aware Supervision
- Title(参考訳): MOHO: シングルビューハンドヘルドオブジェクト再構成を学習する
マルチビューオクルージョン・アウェア・スーパービジョン
- Authors: Chenyangguang Zhang, Guanlong Jiao, Yan Di, Gu Wang, Ziqin Huang,
Ruida Zhang, Fabian Manhardt, Bowen Fu, Federico Tombari, Xiangyang Ji
- Abstract要約: ハンドヘルドオブジェクト再構成のためのハンドオブジェクトビデオから,多視点オクルージョン対応監視を利用する新しいフレームワークを提案する。
このような設定において、手による排他と対象の自己排他という2つの主要な課題に対処する。
HO3D と DexYCB のデータセットを用いた実験では、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることが示された。
- 参考スコア(独自算出の注目度): 75.38953287579616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous works concerning single-view hand-held object reconstruction
typically rely on supervision from 3D ground-truth models, which are hard to
collect in real world. In contrast, readily accessible hand-object videos offer
a promising training data source, but they only give heavily occluded object
observations. In this paper, we present a novel synthetic-to-real framework to
exploit Multi-view Occlusion-aware supervision from hand-object videos for
Hand-held Object reconstruction (MOHO) from a single image, tackling two
predominant challenges in such setting: hand-induced occlusion and object's
self-occlusion. First, in the synthetic pre-training stage, we render a
large-scaled synthetic dataset SOMVideo with hand-object images and multi-view
occlusion-free supervisions, adopted to address hand-induced occlusion in both
2D and 3D spaces. Second, in the real-world finetuning stage, MOHO leverages
the amodal-mask-weighted geometric supervision to mitigate the unfaithful
guidance caused by the hand-occluded supervising views in real world. Moreover,
domain-consistent occlusion-aware features are amalgamated in MOHO to resist
object's self-occlusion for inferring the complete object shape. Extensive
experiments on HO3D and DexYCB datasets demonstrate 2D-supervised MOHO gains
superior results against 3D-supervised methods by a large margin.
- Abstract(参考訳): シングルビューハンドヘルドオブジェクトの再構築に関するこれまでの研究は、現実世界では収集が難しい3D地下構造モデルの監督に依存していた。
対照的に、簡単にアクセス可能なハンドオブジェクトビデオは、有望なトレーニングデータソースを提供するが、それらは、非常に無視されたオブジェクトの観察しか提供しない。
本稿では,手動物体再構成(MOHO)のための手動物体再構成(Hand-held Object Restruction)ビデオから,手動閉塞と物体自己閉塞という2つの主要な課題に対処する,多視点オクルージョン対応の多視点監視を利用する新しいフレームワークを提案する。
まず,2次元空間と3次元空間の両方において手動による閉塞に対処するために,手動物体画像と多視点オクルージョンのない監督機能を備えた大規模合成データセットSOMVideoを試作した。
第二に、現実世界の微調整段階において、MOHOはアモーダルマスクを重み付けした幾何学的監督を利用して、現実世界における手持ち監督の視点によって引き起こされる不誠実なガイダンスを緩和する。
さらに、完全なオブジェクト形状を推測するために、オブジェクトの自己閉塞に抵抗するため、ドメイン一貫性のオクルージョン認識特徴をMOHOにアマルガメートする。
HO3D と DexYCB データセットの大規模な実験は、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることを示した。
関連論文リスト
- Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - In-Hand 3D Object Reconstruction from a Monocular RGB Video [17.31419675163019]
我々の研究は、静止RGBカメラの前で手で保持・回転する3Dオブジェクトを再構築することを目的としている。
暗黙の神経表現を用いて、多視点画像からジェネリックハンドヘルドオブジェクトの形状を復元する従来の手法は、オブジェクトの可視部分において魅力的な結果を得た。
論文 参考訳(メタデータ) (2023-12-27T06:19:25Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - 3D Reconstruction of Objects in Hands without Real World 3D Supervision [12.70221786947807]
ハンドヘルドオブジェクトを再構築するためのモデル学習をスケールアップするために,3Dインスペクションを活用するモジュールを提案する。
具体的には、ビデオから多視点2Dマスクの監視を抽出し、形状収集から3次元形状の前兆を抽出する。
我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
論文 参考訳(メタデータ) (2023-05-04T17:56:48Z) - Unsupervised Style-based Explicit 3D Face Reconstruction from Single
Image [10.1205208477163]
本研究では,Unsupervised 2D to Explicit 3D Style Transferを解くための一般的な逆学習フレームワークを提案する。
具体的には、Wuらによる教師なし明示的な3D再構成ネットワークと、StarGAN-v2というジェネレーティブ・アドバイザリ・ネットワーク(GAN)の2つのアーキテクチャを統合する。
提案手法は,DepthNetを3次元再構成で,Pix2NeRFを条件付き転送で,よく確立されたソリューションよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T21:25:06Z) - Towards unconstrained joint hand-object reconstruction from RGB videos [81.97694449736414]
ハンドオブジェクト操作の再構築は、ロボット工学と人間のデモから学ぶ大きな可能性を秘めている。
まず,手動物体の相互作用をシームレスに処理できる学習不要な手動物体再構成手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T12:26:34Z) - Reconstructing Hand-Object Interactions in the Wild [71.16013096764046]
直接3D監視を必要としない最適化手法を提案する。
利用可能なすべての関連データ(2Dバウンディングボックス、2Dハンドキーポイント、2Dインスタンスマスク、3Dオブジェクトモデル、3DインザラボMoCap)を利用して、3D再構築の制約を提供します。
本手法はEPIC Kitchens と 100 Days of Hands のデータセットから, 難易度の高いデータに対して, 説得力のある再構築を行う。
論文 参考訳(メタデータ) (2020-12-17T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。