論文の概要: THOR-Net: End-to-end Graformer-based Realistic Two Hands and Object
Reconstruction with Self-supervision
- arxiv url: http://arxiv.org/abs/2210.13853v1
- Date: Tue, 25 Oct 2022 09:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 15:07:55.150640
- Title: THOR-Net: End-to-end Graformer-based Realistic Two Hands and Object
Reconstruction with Self-supervision
- Title(参考訳): THOR-Net: エンド・ツー・エンド・エンド・グラファーによる現実的2つの手とオブジェクト再構成
- Authors: Ahmed Tawfik Aboukhadra, Jameel Malik, Ahmed Elhayek, Nadia Robertini
and Didier Stricker
- Abstract要約: THOR-Netは、GCN、Transformer、セルフスーパービジョンのパワーを組み合わせて、2つの手と1つのRGBイメージからオブジェクトを再構築する。
HO-3Dデータセット (10.0mm) を用いた手形状推定の最先端化
また、左のポーズで5mm、右のポーズで1mmの挑戦的な2つの手とオブジェクト(H2O)データセットに対して、手動ポーズの他の手法を上回ります。
- 参考スコア(独自算出の注目度): 11.653985098433841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realistic reconstruction of two hands interacting with objects is a new and
challenging problem that is essential for building personalized Virtual and
Augmented Reality environments. Graph Convolutional networks (GCNs) allow for
the preservation of the topologies of hands poses and shapes by modeling them
as a graph. In this work, we propose the THOR-Net which combines the power of
GCNs, Transformer, and self-supervision to realistically reconstruct two hands
and an object from a single RGB image. Our network comprises two stages; namely
the features extraction stage and the reconstruction stage. In the features
extraction stage, a Keypoint RCNN is used to extract 2D poses, features maps,
heatmaps, and bounding boxes from a monocular RGB image. Thereafter, this 2D
information is modeled as two graphs and passed to the two branches of the
reconstruction stage. The shape reconstruction branch estimates meshes of two
hands and an object using our novel coarse-to-fine GraFormer shape network. The
3D poses of the hands and objects are reconstructed by the other branch using a
GraFormer network. Finally, a self-supervised photometric loss is used to
directly regress the realistic textured of each vertex in the hands' meshes.
Our approach achieves State-of-the-art results in Hand shape estimation on the
HO-3D dataset (10.0mm) exceeding ArtiBoost (10.8mm). It also surpasses other
methods in hand pose estimation on the challenging two hands and object (H2O)
dataset by 5mm on the left-hand pose and 1 mm on the right-hand pose.
- Abstract(参考訳): オブジェクトと相互作用する両手の現実的な再構築は、パーソナライズされたバーチャルおよび拡張現実環境を構築する上で不可欠な、新しくて困難な問題である。
グラフ畳み込みネットワーク(GCN)は、それらをグラフとしてモデル化することで、手ポーズや形状のトポロジーを保存できる。
本稿では,GCN, Transformer, セルフスーパービジョンのパワーを組み合わせたTHOR-Netを提案する。
本ネットワークは,特徴抽出段階と再構成段階の2段階からなる。
特徴抽出段階では、キーポイントRCNNを使用して、単眼のRGB画像から2Dポーズ、特徴マップ、ヒートマップ、バウンディングボックスを抽出する。
その後、この2次元情報は2つのグラフとしてモデル化され、復元段階の2つの枝に渡される。
形状再構成枝は,新しい粗いGraFormer形状ネットワークを用いて,両手と物体のメッシュを推定する。
手とオブジェクトの3Dポーズは、GraFormerネットワークを使用して他のブランチによって再構成される。
最後に、手持ちメッシュ内の各頂点の現実的なテクスチャを直接回帰するために、自己教師付き測光損失を用いる。
提案手法は,ArtiBoost (10.8mm) を超えるHO-3Dデータセット (10.0mm) における手形状推定の最先端結果を実現する。
また、左手に5mm、右手に1mmのh2oデータセットを、挑戦的な2つの手とオブジェクトで、他の手のポーズ推定方法を超えている。
関連論文リスト
- Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。
1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。
次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文 参考訳(メタデータ) (2024-04-09T17:55:41Z) - In-Hand 3D Object Reconstruction from a Monocular RGB Video [17.31419675163019]
我々の研究は、静止RGBカメラの前で手で保持・回転する3Dオブジェクトを再構築することを目的としている。
暗黙の神経表現を用いて、多視点画像からジェネリックハンドヘルドオブジェクトの形状を復元する従来の手法は、オブジェクトの可視部分において魅力的な結果を得た。
論文 参考訳(メタデータ) (2023-12-27T06:19:25Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - ShapeGraFormer: GraFormer-Based Network for Hand-Object Reconstruction from a Single Depth Map [11.874184782686532]
そこで本研究では, 現実的な3次元物体形状に対する最初のアプローチを提案し, 一つの深度マップから復元する。
我々のパイプラインは、入力されたボキセル化深度に1対1のマッピングを持つ、ボキセル化ハンドオブジェクト形状も予測する。
さらに、手動オブジェクトの相互作用に基づいて再構成された形状を洗練する別のGraFormerコンポーネントを追加する影響を示す。
論文 参考訳(メタデータ) (2023-10-18T09:05:57Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - HandNeRF: Learning to Reconstruct Hand-Object Interaction Scene from a Single RGB Image [41.580285338167315]
本稿では,1枚のRGB画像から3次元手オブジェクトシーンを再構成する前に,手オブジェクト間のインタラクションを学習する方法を提案する。
我々は手形状を用いて手と物体形状の相対的な構成を制約する。
そこで,HandNeRFは,手動による新たなグリップ構成のシーンを,同等の手法よりも高精度に再構築可能であることを示す。
論文 参考訳(メタデータ) (2023-09-14T17:42:08Z) - Consistent 3D Hand Reconstruction in Video via self-supervised Learning [67.55449194046996]
本稿では,モノクロ映像から高精度で一貫した3Dハンドを再構築する手法を提案する。
検出された2次元手指キーポイントと画像テクスチャは、3次元手の形状とテクスチャに関する重要な手がかりを提供する。
自己監督型3Dハンド再構成モデルであるS2HAND$を提案する。
論文 参考訳(メタデータ) (2022-01-24T09:44:11Z) - Model-based 3D Hand Reconstruction via Self-Supervised Learning [72.0817813032385]
シングルビューのRGB画像から3Dハンドを再構成することは、様々な手構成と深さのあいまいさのために困難である。
ポーズ, 形状, テクスチャ, カメラ視点を共同で推定できる, 自己教師型3Dハンド再構成ネットワークであるS2HANDを提案する。
初めて手動アノテーションを使わずに、正確な3D手の再構築ネットワークを訓練できることを実証しました。
論文 参考訳(メタデータ) (2021-03-22T10:12:43Z) - Towards Realistic 3D Embedding via View Alignment [53.89445873577063]
本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動的に埋め込み,新たな画像を構成する,革新的なビューアライメントGAN(VA-GAN)を提案する。
VA-GANはテクスチャジェネレータとディファレンシャルディスクリミネーターで構成され、相互接続され、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2020-07-14T14:45:00Z) - HandVoxNet: Deep Voxel-Based Network for 3D Hand Shape and Pose
Estimation from a Single Depth Map [72.93634777578336]
弱教師付き方式で3次元畳み込みを訓練した新しいアーキテクチャを提案する。
提案されたアプローチは、SynHand5Mデータセット上で、アートの状態を47.8%改善する。
我々の手法は、NYUとBigHand2.2Mデータセットで視覚的により合理的で現実的な手形を生成する。
論文 参考訳(メタデータ) (2020-04-03T14:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。