論文の概要: AttentionHand: Text-driven Controllable Hand Image Generation for 3D Hand Reconstruction in the Wild
- arxiv url: http://arxiv.org/abs/2407.18034v1
- Date: Thu, 25 Jul 2024 13:29:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 13:58:54.103304
- Title: AttentionHand: Text-driven Controllable Hand Image Generation for 3D Hand Reconstruction in the Wild
- Title(参考訳): AttentionHand:野生における3Dハンドコンストラクションのためのテキスト駆動制御可能なハンドイメージ生成
- Authors: Junho Park, Kyeongbo Kong, Suk-Ju Kang,
- Abstract要約: AttentionHandはテキスト駆動による手動画像生成の新しい手法である。
3Dハンドラベルとよく整合した、さまざまな、そして多数の手動画像を生成することができる。
テキスト・ツー・ハンド画像生成モデル間で最先端を実現する。
- 参考スコア(独自算出の注目度): 18.351368674337134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been a significant amount of research conducted on 3D hand reconstruction to use various forms of human-computer interaction. However, 3D hand reconstruction in the wild is challenging due to extreme lack of in-the-wild 3D hand datasets. Especially, when hands are in complex pose such as interacting hands, the problems like appearance similarity, self-handed occclusion and depth ambiguity make it more difficult. To overcome these issues, we propose AttentionHand, a novel method for text-driven controllable hand image generation. Since AttentionHand can generate various and numerous in-the-wild hand images well-aligned with 3D hand label, we can acquire a new 3D hand dataset, and can relieve the domain gap between indoor and outdoor scenes. Our method needs easy-to-use four modalities (i.e, an RGB image, a hand mesh image from 3D label, a bounding box, and a text prompt). These modalities are embedded into the latent space by the encoding phase. Then, through the text attention stage, hand-related tokens from the given text prompt are attended to highlight hand-related regions of the latent embedding. After the highlighted embedding is fed to the visual attention stage, hand-related regions in the embedding are attended by conditioning global and local hand mesh images with the diffusion-based pipeline. In the decoding phase, the final feature is decoded to new hand images, which are well-aligned with the given hand mesh image and text prompt. As a result, AttentionHand achieved state-of-the-art among text-to-hand image generation models, and the performance of 3D hand mesh reconstruction was improved by additionally training with hand images generated by AttentionHand.
- Abstract(参考訳): 近年,人-コンピュータインタラクションの様々な形態を利用する3次元手指再建に関する研究が盛んに行われている。
しかし、Wild 3Dハンドデータセットが極端に不足しているため、野生での3Dハンド再構築は困難である。
特に、手の相互作用のような複雑なポーズの場合、外見の類似性、自手咬合、奥行きのあいまいさといった問題はより困難になる。
これらの問題を解決するために,テキスト駆動による手動画像生成の新しい手法であるAttentionHandを提案する。
AttentionHandは3Dハンドラベルに整合した多種多様な手画像を生成することができるため、新しい3Dハンドデータセットを取得でき、屋内と屋外のシーン間のドメインギャップを緩和できる。
提案手法では,RGB画像,3次元ラベルのハンドメッシュ画像,バウンディングボックス,テキストプロンプトの4つのモードが容易に利用できる。
これらのモダリティは符号化フェーズによって潜在空間に埋め込まれる。
そして、テキストアテンション段階を通じて、所定のテキストプロンプトから手関連トークンを受け取り、潜伏埋め込みの手関連領域をハイライトする。
強調した埋め込みを視覚的注意ステージに供給した後、拡散ベースのパイプラインでグローバルおよびローカルハンドメッシュイメージを条件付けして、埋め込み中の手関連領域を参加させる。
復号フェーズでは、最終機能は、与えられたハンドメッシュイメージとテキストプロンプトと整合した新しいハンドイメージにデコードされる。
その結果、AttentionHandはテキスト・ツー・ハンド画像生成モデルの間で最先端の技術を達成し、AttentionHandが生成した手動画像による3次元手動メッシュ再構成の性能が向上した。
関連論文リスト
- Hand1000: Generating Realistic Hands from Text with Only 1,000 Images [29.562925199318197]
本論文では,目標ジェスチャーによる現実的な手動画像の生成を可能にするHand1000という新しい手法を提案する。
Hand1000の訓練は3つの段階に分けられ、第1段階はモデルによる手解剖学の理解を高めることを目的としている。
テキスト・ツー・ハンド画像生成に特化して設計された最初の公開データセットを構築した。
論文 参考訳(メタデータ) (2024-08-28T00:54:51Z) - HandGCAT: Occlusion-Robust 3D Hand Mesh Reconstruction from Monocular Images [9.554136347258057]
モノクロ画像から3Dハンドメッシュを再構築するための頑健で正確な手法を提案する。
HandGCATは、隠された領域の機能を強化するために、補償情報としてハンドプレッシャを完全に活用することができる。
論文 参考訳(メタデータ) (2024-02-27T03:40:43Z) - HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional Inpainting [72.95232302438207]
拡散モデルは現実的な画像の生成において顕著な成功を収めた。
しかし、不正確な指数や不規則な形など、正確な人間の手を生成することに苦しむ。
本稿では,HandRefinerという軽量な後処理ソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-29T08:52:08Z) - HandNeRF: Learning to Reconstruct Hand-Object Interaction Scene from a Single RGB Image [41.580285338167315]
本稿では,1枚のRGB画像から3次元手オブジェクトシーンを再構成する前に,手オブジェクト間のインタラクションを学習する方法を提案する。
我々は手形状を用いて手と物体形状の相対的な構成を制約する。
そこで,HandNeRFは,手動による新たなグリップ構成のシーンを,同等の手法よりも高精度に再構築可能であることを示す。
論文 参考訳(メタデータ) (2023-09-14T17:42:08Z) - Recovering 3D Hand Mesh Sequence from a Single Blurry Image: A New
Dataset and Temporal Unfolding [54.49373038369293]
まず,3次元基底構造を持つぼやけた手画像を含む新しいデータセットBlurHandを提示する。
BlurHandは、シーケンシャルな手の画像から動きのぼかしを合成し、リアルで自然な動きのぼかしを模倣して作られている。
新しいデータセットに加えて、ぼやけた手画像から正確な3次元手メッシュを復元するためのベースラインネットワークであるBlurHandNetを提案する。
論文 参考訳(メタデータ) (2023-03-27T17:40:29Z) - HandOccNet: Occlusion-Robust 3D Hand Mesh Estimation Network [57.206129938611454]
本稿では,新しい3Dハンドメッシュ推定ネットワークHandOccNetを提案する。
閉鎖領域に手情報を注入することで、HandOccNetは3Dハンドメッシュベンチマークの最先端性能に達する。
論文 参考訳(メタデータ) (2022-03-28T08:12:16Z) - Consistent 3D Hand Reconstruction in Video via self-supervised Learning [67.55449194046996]
本稿では,モノクロ映像から高精度で一貫した3Dハンドを再構築する手法を提案する。
検出された2次元手指キーポイントと画像テクスチャは、3次元手の形状とテクスチャに関する重要な手がかりを提供する。
自己監督型3Dハンド再構成モデルであるS2HAND$を提案する。
論文 参考訳(メタデータ) (2022-01-24T09:44:11Z) - Model-based 3D Hand Reconstruction via Self-Supervised Learning [72.0817813032385]
シングルビューのRGB画像から3Dハンドを再構成することは、様々な手構成と深さのあいまいさのために困難である。
ポーズ, 形状, テクスチャ, カメラ視点を共同で推定できる, 自己教師型3Dハンド再構成ネットワークであるS2HANDを提案する。
初めて手動アノテーションを使わずに、正確な3D手の再構築ネットワークを訓練できることを実証しました。
論文 参考訳(メタデータ) (2021-03-22T10:12:43Z) - MM-Hand: 3D-Aware Multi-Modal Guided Hand Generative Network for 3D Hand
Pose Synthesis [81.40640219844197]
モノラルなRGB画像から3Dハンドポーズを推定することは重要だが難しい。
解決策は、高精度な3D手指キーポイントアノテーションを用いた大規模RGB手指画像のトレーニングである。
我々は,現実的で多様な3次元ポーズ保存ハンドイメージを合成する学習ベースアプローチを開発した。
論文 参考訳(メタデータ) (2020-10-02T18:27:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。